論文の概要: GOPLA: Generalizable Object Placement Learning via Synthetic Augmentation of Human Arrangement
- arxiv url: http://arxiv.org/abs/2510.14627v1
- Date: Thu, 16 Oct 2025 12:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.853627
- Title: GOPLA: Generalizable Object Placement Learning via Synthetic Augmentation of Human Arrangement
- Title(参考訳): GOPLA:ヒューマンアレンジメントの合成拡張による汎用的な物体配置学習
- Authors: Yao Zhong, Hanzhi Chen, Simon Schaefer, Anran Zhang, Stefan Leutenegger,
- Abstract要約: GOPLAは、拡張された人間のデモンストレーションから一般化可能なオブジェクト配置を学ぶ階層的なフレームワークである。
データ不足を克服するため、私たちは、人間の配置デモを多様な合成トレーニングデータに拡張するスケーラブルなパイプラインを導入しました。
提案手法は, 位置決め精度と身体的妥当性を指標として, ランナアップよりも30.04ポイントの配置成功率を向上する。
- 参考スコア(独自算出の注目度): 16.549660613125877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots are expected to serve as intelligent assistants, helping humans with everyday household organization. A central challenge in this setting is the task of object placement, which requires reasoning about both semantic preferences (e.g., common-sense object relations) and geometric feasibility (e.g., collision avoidance). We present GOPLA, a hierarchical framework that learns generalizable object placement from augmented human demonstrations. A multi-modal large language model translates human instructions and visual inputs into structured plans that specify pairwise object relationships. These plans are then converted into 3D affordance maps with geometric common sense by a spatial mapper, while a diffusion-based planner generates placement poses guided by test-time costs, considering multi-plan distributions and collision avoidance. To overcome data scarcity, we introduce a scalable pipeline that expands human placement demonstrations into diverse synthetic training data. Extensive experiments show that our approach improves placement success rates by 30.04 percentage points over the runner-up, evaluated on positioning accuracy and physical plausibility, demonstrating strong generalization across a wide range of real-world robotic placement scenarios.
- Abstract(参考訳): ロボットは知的なアシスタントとして機能し、日常的な家庭組織で人間を助けることが期待されている。
この設定における中心的な課題は、オブジェクト配置のタスクであり、これは意味的嗜好(例えば、常識的オブジェクトの関係)と幾何学的実現可能性(例えば、衝突回避)の両方について推論する必要がある。
本稿では,拡張現実の実証から一般化可能な物体配置を学習する階層型フレームワークGOPLAを提案する。
マルチモーダルな大言語モデルは、人間の指示や視覚的な入力を、ペアワイズオブジェクトの関係を規定する構造化された計画に変換する。
これらのプランは空間マッパーによって幾何学的共通感覚で3次元空きマップに変換され、拡散型プランナーは多平面分布と衝突回避を考慮したテスト時間コストで誘導された配置ポーズを生成する。
データ不足を克服するため、私たちは、人間の配置デモを多様な合成トレーニングデータに拡張するスケーラブルなパイプラインを導入しました。
広範囲な実世界のロボット配置シナリオにまたがって,位置決め精度と身体的妥当性を評価した結果,提案手法により配置成功率を30.04ポイント向上させることができた。
関連論文リスト
- R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control [22.74768543283102]
Graph-Fused Vision-Language-Action (GF-VLA)は、デュアルアームロボットシステムがタスクレベルの推論と実行を可能にするフレームワークである。
GF-VLAはまずシャノン情報に基づく手がかりを抽出し、最も高いタスク関連性を持つ手や物体を識別する。
クロスハンド選択ポリシーは、明示的な幾何学的推論なしで最適な割り当てを推測する。
論文 参考訳(メタデータ) (2025-08-07T12:48:09Z) - Object Affordance Recognition and Grounding via Multi-scale Cross-modal Representation Learning [64.32618490065117]
Embodied AIの中核的な問題は、人間がしているように、観察からオブジェクト操作を学ぶことだ。
本稿では,3D表現の可利用性を学習し,段階的推論戦略を採用する新しい手法を提案する。
提案手法の有効性を実証し,アベイランスグラウンドと分類の両面での性能向上を示した。
論文 参考訳(メタデータ) (2025-08-02T04:14:18Z) - Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - HARPS: An Online POMDP Framework for Human-Assisted Robotic Planning and
Sensing [1.3678064890824186]
HARPS(Human Assisted Robotic Planning and Sensing)フレームワークは、ロボットチームにおけるアクティブなセマンティックセンシングと計画のためのフレームワークである。
このアプローチにより、人間が不規則にモデル構造を強制し、不確実な環境で意味的なソフトデータの範囲を拡張することができる。
大規模部分構造環境におけるUAV対応ターゲット探索アプリケーションのシミュレーションは、時間と信念状態の推定において著しく改善されている。
論文 参考訳(メタデータ) (2021-10-20T00:41:57Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。