論文の概要: Stimulating Imagination: Towards General-purpose Object Rearrangement
- arxiv url: http://arxiv.org/abs/2408.01655v1
- Date: Sat, 3 Aug 2024 03:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:10:37.591568
- Title: Stimulating Imagination: Towards General-purpose Object Rearrangement
- Title(参考訳): イマジネーションを刺激する:汎用オブジェクト再構成を目指して
- Authors: Jianyang Wu, Jie Gu, Xiaokang Ma, Chu Tang, Jingmin Chen,
- Abstract要約: 汎用オブジェクト配置は、インテリジェントロボットの基本的な能力である。
我々はこの課題を達成するためにSPORTというフレームワークを提案する。
Sportは、物理的に現実的な結果を保証するために拡散に基づく3Dポーズ推定器を学習する。
シミュレーションと実世界の実験により、汎用オブジェクト再構成を実現するためのアプローチの可能性を示す。
- 参考スコア(独自算出の注目度): 2.0885207827639785
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: General-purpose object placement is a fundamental capability of an intelligent generalist robot, i.e., being capable of rearranging objects following human instructions even in novel environments. To achieve this, we break the rearrangement down into three parts, including object localization, goal imagination and robot control, and propose a framework named SPORT. SPORT leverages pre-trained large vision models for broad semantic reasoning about objects, and learns a diffusion-based 3D pose estimator to ensure physically-realistic results. Only object types (to be moved or reference) are communicated between these two parts, which brings two benefits. One is that we can fully leverage the powerful ability of open-set object localization and recognition since no specific fine-tuning is needed for robotic scenarios. Furthermore, the diffusion-based estimator only need to "imagine" the poses of the moving and reference objects after the placement, while no necessity for their semantic information. Thus the training burden is greatly reduced and no massive training is required. The training data for goal pose estimation is collected in simulation and annotated with GPT-4. A set of simulation and real-world experiments demonstrate the potential of our approach to accomplish general-purpose object rearrangement, placing various objects following precise instructions.
- Abstract(参考訳): 汎用オブジェクト配置は、インテリジェントなジェネラリストロボットの基本的な能力、すなわち、新しい環境においても、人間の指示に従ってオブジェクトを並べ替える能力である。
これを実現するために,オブジェクトのローカライゼーション,ゴールのイマジネーション,ロボット制御の3つの部分に分割し,Sportというフレームワークを提案する。
SPORTは、事前訓練された大きな視覚モデルを利用して、オブジェクトに関する広い意味推論を行い、拡散に基づく3Dポーズ推定器を学習し、物理的に現実的な結果を保証する。
オブジェクトタイプ(移動や参照)のみがこの2つの部分の間で通信されるため、2つのメリットがあります。
ひとつは、ロボットシナリオに特定の微調整が不要であるため、オープンセットオブジェクトのローカライゼーションと認識の強力な能力を完全に活用できるということです。
さらに、拡散に基づく推定器は、配置後の移動および参照オブジェクトのポーズを「想像」するだけでよいが、それらの意味情報は不要である。
これにより、訓練負担が大幅に軽減され、大規模な訓練は不要となる。
目標ポーズ推定のためのトレーニングデータをシミュレーションで収集し、GPT-4でアノテートする。
シミュレーションと実世界の実験のセットは、汎用オブジェクト再構成を実現するためのアプローチの可能性を示し、様々なオブジェクトを精密な指示に従って配置する。
関連論文リスト
- From Words to Poses: Enhancing Novel Object Pose Estimation with Vision Language Models [7.949705607963995]
視覚言語モデル(VLM)はロボット工学の応用においてかなりの進歩を見せている。
VLMのゼロショット機能を活用し、6次元オブジェクトポーズ推定に変換する。
本稿では,言語埋め込みを用いたゼロショット6Dオブジェクトのポーズ推定のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-09T08:15:39Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - Modular Neural Network Policies for Learning In-Flight Object Catching
with a Robot Hand-Arm System [55.94648383147838]
本稿では,ロボットハンドアームシステムによる飛行物体の捕獲方法の学習を可能にするモジュラーフレームワークを提案する。
本フレームワークは,物体の軌跡予測を学習するオブジェクト状態推定器,(ii)捕捉対象のポーズのスコアとランク付けを学ぶキャッチポーズ品質ネットワーク,(iii)ロボットハンドをキャッチ前ポーズに移動させるように訓練されたリーチ制御ポリシ,(iv)ソフトキャッチ動作を行うように訓練された把握制御ポリシの5つのコアモジュールから構成される。
各モジュールと統合システムのシミュレーションにおいて、我々のフレームワークを広範囲に評価し、飛行における高い成功率を示す。
論文 参考訳(メタデータ) (2023-12-21T16:20:12Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - ShapeShift: Superquadric-based Object Pose Estimation for Robotic
Grasping [85.38689479346276]
現在の技術は参照3Dオブジェクトに大きく依存しており、その一般化性を制限し、新しいオブジェクトカテゴリに拡張するのにコストがかかる。
本稿では,オブジェクトに適合するプリミティブな形状に対してオブジェクトのポーズを予測する,オブジェクトのポーズ推定のためのスーパークワッドリックベースのフレームワークであるShapeShiftを提案する。
論文 参考訳(メタデータ) (2023-04-10T20:55:41Z) - FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects [14.034256001448574]
そこで本研究では,様々な物体の潜在的な動きを学習して予測する視覚ベースシステムを提案する。
我々は,このベクトル場に基づく解析的運動プランナを配置し,最大調音を与えるポリシを実現する。
その結果,本システムは実世界のシミュレーション実験と実世界実験の両方において,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-09T15:35:33Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Predicting Stable Configurations for Semantic Placement of Novel Objects [37.18437299513799]
我々のゴールは、新しい環境における学習された意味的関係に従って、ロボットが未確認の物体を配置できるようにすることである。
我々は、未知のオブジェクトのセマンティック配置のための計画アルゴリズムと密に統合するために、モデルとトレーニングをゼロから構築する。
提案手法は,RGB-Dセンシングのみによる形状の異なるシーンにおける未知物体のセマンティック・アレンジメントのための動作計画を可能にする。
論文 参考訳(メタデータ) (2021-08-26T23:05:05Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。