論文の概要: Stimulating Imagination: Towards General-purpose "Something Something Placement"
- arxiv url: http://arxiv.org/abs/2408.01655v2
- Date: Mon, 21 Jul 2025 10:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.683959
- Title: Stimulating Imagination: Towards General-purpose "Something Something Placement"
- Title(参考訳): 想像を刺激する: 汎用的な「何かの配置」を目指して
- Authors: Jianyang Wu, Jie Gu, Xiaokang Ma, Fangzhou Qiu, Chu Tang, Jingmin Chen,
- Abstract要約: この作品は、何かの指示で汎用的なオブジェクト配置を達成することを目的としている。
プロセス全体を、オブジェクトのローカライゼーション、ゴールの想像力、ロボット制御を含む3つの部分に分割し、Sportという手法を提案する。
Sportは、未確認のシミュレーションオブジェクトに対して有望な3Dゴールポーズを生成するだけでなく、現実世界の設定にもシームレスに適用できる。
- 参考スコア(独自算出の注目度): 1.9710169862902398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose object placement is a fundamental capability of an intelligent generalist robot: being capable of rearranging objects following precise human instructions even in novel environments. This work is dedicated to achieving general-purpose object placement with ``something something'' instructions. Specifically, we break the entire process down into three parts, including object localization, goal imagination and robot control, and propose a method named SPORT. SPORT leverages a pre-trained large vision model for broad semantic reasoning about objects, and learns a diffusion-based pose estimator to ensure physically-realistic results in 3D space. Only object types (movable or reference) are communicated between these two parts, which brings two benefits. One is that we can fully leverage the powerful ability of open-set object recognition and localization since no specific fine-tuning is needed for the robotic scenario. Moreover, the diffusion-based estimator only need to ``imagine" the object poses after the placement, while no necessity for their semantic information. Thus the training burden is greatly reduced and no massive training is required. The training data for the goal pose estimation is collected in simulation and annotated by using GPT-4. Experimental results demonstrate the effectiveness of our approach. SPORT can not only generate promising 3D goal poses for unseen simulated objects, but also be seamlessly applied to real-world settings.
- Abstract(参考訳): 汎用オブジェクト配置は、知的汎用ロボットの基本的能力であり、新しい環境においても正確な人間の指示に従ってオブジェクトを並べ替えることができる。
この作品は『何か』の指示で汎用的なオブジェクト配置を達成することを目的としている。
具体的には、オブジェクトの局所化、ゴールの想像力、ロボット制御など、プロセス全体を3つの部分に分割し、Sportという手法を提案する。
SPORTは、事前学習された大きな視覚モデルを利用して、オブジェクトに関する広い意味推論を行い、拡散に基づくポーズ推定器を学習し、3次元空間における物理的現実的な結果を保証する。
これら2つの部分の間では、オブジェクトタイプ(移動可能または参照)のみが通信され、2つの利点をもたらします。
ひとつは、ロボットシナリオに特定の微調整が不要であるため、オープンセットオブジェクト認識とローカライゼーションの強力な能力を完全に活用できるということです。
さらに、拡散に基づく推定器は、オブジェクトの配置後のポーズを「想像」するだけでよいが、それらの意味情報は不要である。
これにより、訓練負担が大幅に軽減され、大規模な訓練は不要となる。
目標ポーズ推定のためのトレーニングデータをシミュレーションで収集し、GPT-4を用いてアノテートする。
実験により,本手法の有効性が示された。
Sportは、未確認のシミュレーションオブジェクトに対して有望な3Dゴールポーズを生成するだけでなく、現実世界の設定にもシームレスに適用できる。
関連論文リスト
- Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions [43.784500616459304]
本稿では,言語指導,視覚的観察,インタラクションに基づく3次元オブジェクトの可利用性に基づく新しいタスクを提案する。
LMAffordance3Dは,最初のマルチモーダルな言語誘導型3Dアベイランスグラウンドティングネットワークである。
論文 参考訳(メタデータ) (2025-04-07T05:38:23Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - From Words to Poses: Enhancing Novel Object Pose Estimation with Vision Language Models [7.949705607963995]
視覚言語モデル(VLM)はロボット工学の応用においてかなりの進歩を見せている。
VLMのゼロショット機能を活用し、6次元オブジェクトポーズ推定に変換する。
本稿では,言語埋め込みを用いたゼロショット6Dオブジェクトのポーズ推定のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-09T08:15:39Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - Modular Neural Network Policies for Learning In-Flight Object Catching
with a Robot Hand-Arm System [55.94648383147838]
本稿では,ロボットハンドアームシステムによる飛行物体の捕獲方法の学習を可能にするモジュラーフレームワークを提案する。
本フレームワークは,物体の軌跡予測を学習するオブジェクト状態推定器,(ii)捕捉対象のポーズのスコアとランク付けを学ぶキャッチポーズ品質ネットワーク,(iii)ロボットハンドをキャッチ前ポーズに移動させるように訓練されたリーチ制御ポリシ,(iv)ソフトキャッチ動作を行うように訓練された把握制御ポリシの5つのコアモジュールから構成される。
各モジュールと統合システムのシミュレーションにおいて、我々のフレームワークを広範囲に評価し、飛行における高い成功率を示す。
論文 参考訳(メタデータ) (2023-12-21T16:20:12Z) - Anthropomorphic Grasping with Neural Object Shape Completion [20.952799332420195]
人間は、オブジェクトを扱うときに異常な器用さを示します。
手の姿勢は、把握すべき対象に対する特定の領域の影響を一般的に示している。
本研究では、部分的な観察から全幾何学を再構築し、完成させることにより、人間のような物体の理解を活用する。
論文 参考訳(メタデータ) (2023-11-04T21:05:26Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - ShapeShift: Superquadric-based Object Pose Estimation for Robotic
Grasping [85.38689479346276]
現在の技術は参照3Dオブジェクトに大きく依存しており、その一般化性を制限し、新しいオブジェクトカテゴリに拡張するのにコストがかかる。
本稿では,オブジェクトに適合するプリミティブな形状に対してオブジェクトのポーズを予測する,オブジェクトのポーズ推定のためのスーパークワッドリックベースのフレームワークであるShapeShiftを提案する。
論文 参考訳(メタデータ) (2023-04-10T20:55:41Z) - FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects [14.034256001448574]
そこで本研究では,様々な物体の潜在的な動きを学習して予測する視覚ベースシステムを提案する。
我々は,このベクトル場に基づく解析的運動プランナを配置し,最大調音を与えるポリシを実現する。
その結果,本システムは実世界のシミュレーション実験と実世界実験の両方において,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-09T15:35:33Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Predicting Stable Configurations for Semantic Placement of Novel Objects [37.18437299513799]
我々のゴールは、新しい環境における学習された意味的関係に従って、ロボットが未確認の物体を配置できるようにすることである。
我々は、未知のオブジェクトのセマンティック配置のための計画アルゴリズムと密に統合するために、モデルとトレーニングをゼロから構築する。
提案手法は,RGB-Dセンシングのみによる形状の異なるシーンにおける未知物体のセマンティック・アレンジメントのための動作計画を可能にする。
論文 参考訳(メタデータ) (2021-08-26T23:05:05Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。