論文の概要: AnyPlace: Learning Generalized Object Placement for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2502.04531v1
- Date: Thu, 06 Feb 2025 22:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:25.900343
- Title: AnyPlace: Learning Generalized Object Placement for Robot Manipulation
- Title(参考訳): AnyPlace: ロボット操作のための汎用オブジェクト配置学習
- Authors: Yuchi Zhao, Miroslav Bogdanovic, Chengyuan Luo, Steven Tohme, Kourosh Darvish, Alán Aspuru-Guzik, Florian Shkurti, Animesh Garg,
- Abstract要約: 合成データに基づく2段階の手法であるAnyPlaceを提案する。
私たちのキーとなる洞察は、ビジョン・ランゲージ・モデルを活用することで、ローカルな配置のために、関連する領域のみに焦点を当てるということです。
トレーニングのために、異なる配置構成でランダムに生成されたオブジェクトの完全な合成データセットを生成する。
実世界の実験では、我々の手法が純粋に訓練されたモデルを直接現実世界に転送する方法が示されている。
- 参考スコア(独自算出の注目度): 37.725807003481904
- License:
- Abstract: Object placement in robotic tasks is inherently challenging due to the diversity of object geometries and placement configurations. To address this, we propose AnyPlace, a two-stage method trained entirely on synthetic data, capable of predicting a wide range of feasible placement poses for real-world tasks. Our key insight is that by leveraging a Vision-Language Model (VLM) to identify rough placement locations, we focus only on the relevant regions for local placement, which enables us to train the low-level placement-pose-prediction model to capture diverse placements efficiently. For training, we generate a fully synthetic dataset of randomly generated objects in different placement configurations (insertion, stacking, hanging) and train local placement-prediction models. We conduct extensive evaluations in simulation, demonstrating that our method outperforms baselines in terms of success rate, coverage of possible placement modes, and precision. In real-world experiments, we show how our approach directly transfers models trained purely on synthetic data to the real world, where it successfully performs placements in scenarios where other models struggle -- such as with varying object geometries, diverse placement modes, and achieving high precision for fine placement. More at: https://any-place.github.io.
- Abstract(参考訳): ロボットタスクにおけるオブジェクト配置は、オブジェクトのジオメトリと配置構成の多様性のために本質的に困難である。
これを解決するために、AnyPlaceを提案する。AnyPlaceは、合成データに基づいて訓練された2段階の手法で、現実世界のタスクに対して、幅広い可能な配置ポーズを予測できる。
我々の重要な洞察は、視覚言語モデル(VLM)を用いて、粗い配置位置を特定することにより、局所配置のための関連領域のみに焦点を当て、低レベルの配置位置予測モデルを訓練し、多様な配置を効率的に捉えることができることである。
トレーニングのために、異なる配置構成(挿入、積み重ね、吊り下げ)でランダムに生成されたオブジェクトの完全な合成データセットを生成し、局所的な配置予測モデルを訓練する。
我々はシミュレーションにおいて広範囲な評価を行い、本手法が成功率、配置モードのカバレッジ、精度においてベースラインを上回っていることを示す。
実世界の実験では、我々のアプローチが純粋な合成データに基づいてトレーニングされたモデルを直接現実世界に転送する方法を示し、そこでは、さまざまなオブジェクトジオメトリ、多様な配置モード、精密な配置のための高精度な達成など、他のモデルが苦労するシナリオでの配置をうまく実行します。
詳しくは、https://any-place.github.ioを参照。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Pre-training Contextual Location Embeddings in Personal Trajectories via
Efficient Hierarchical Location Representations [30.493743596793212]
人間の移動データから生成された位置の埋め込みを事前学習することは、位置情報ベースのサービスにとって一般的な方法となっている。
これまでの研究では、1万個未満の異なる場所を処理しており、これは現実世界の応用では不十分である。
本研究では,異なる規模の複数のグリッドの組み合わせとして位置を表現することによって,トレーニング対象の場所数を効率的に削減するGeo-Tokenizerを提案する。
論文 参考訳(メタデータ) (2023-10-02T14:40:24Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Predicting Stable Configurations for Semantic Placement of Novel Objects [37.18437299513799]
我々のゴールは、新しい環境における学習された意味的関係に従って、ロボットが未確認の物体を配置できるようにすることである。
我々は、未知のオブジェクトのセマンティック配置のための計画アルゴリズムと密に統合するために、モデルとトレーニングをゼロから構築する。
提案手法は,RGB-Dセンシングのみによる形状の異なるシーンにおける未知物体のセマンティック・アレンジメントのための動作計画を可能にする。
論文 参考訳(メタデータ) (2021-08-26T23:05:05Z) - PyraPose: Feature Pyramids for Fast and Accurate Object Pose Estimation
under Domain Shift [26.037061005620263]
我々は、エンコーダデコーダネットワークではなく、パッチベースのアプローチの方が、合成から現実への転送に適していると論じる。
本稿では、ポーズ仮説を作成するための多スケール特徴量を計算するための、特殊な特徴ピラミッドネットワークに基づく新しいアプローチを提案する。
我々の単発ポーズ推定アプローチは、複数の標準データセットで評価され、アートの状態を最大35%向上させる。
論文 参考訳(メタデータ) (2020-10-30T08:26:22Z) - DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based
Localization [27.294822556484345]
環境変化下での視覚的長期化は、自律走行と移動ロボット工学において難しい問題である。
視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する新しいマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-01T17:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。