論文の概要: Which objects help me to act effectively? Reasoning about physically-grounded affordances
- arxiv url: http://arxiv.org/abs/2407.13811v1
- Date: Thu, 18 Jul 2024 11:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 21:39:27.357939
- Title: Which objects help me to act effectively? Reasoning about physically-grounded affordances
- Title(参考訳): どの物体が効果的に行動するのに役立ちますか?
- Authors: Anne Kemmeren, Gertjan Burghouts, Michael van Bekkum, Wouter Meijer, Jelle van Mil,
- Abstract要約: この理解の重要な側面は、オブジェクトの余裕を検出することである。
提案手法は,大規模言語モデル (LLM) と視覚言語モデル (VLM) の対話を利用して,オープンワールドのアベイランス検出を実現する。
我々のシステムを物理的世界に接地することで、ロボットの体現と、遭遇する物体の本質的な性質を説明できる。
- 参考スコア(独自算出の注目度): 0.6291443816903801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For effective interactions with the open world, robots should understand how interactions with known and novel objects help them towards their goal. A key aspect of this understanding lies in detecting an object's affordances, which represent the potential effects that can be achieved by manipulating the object in various ways. Our approach leverages a dialogue of large language models (LLMs) and vision-language models (VLMs) to achieve open-world affordance detection. Given open-vocabulary descriptions of intended actions and effects, the useful objects in the environment are found. By grounding our system in the physical world, we account for the robot's embodiment and the intrinsic properties of the objects it encounters. In our experiments, we have shown that our method produces tailored outputs based on different embodiments or intended effects. The method was able to select a useful object from a set of distractors. Finetuning the VLM for physical properties improved overall performance. These results underline the importance of grounding the affordance search in the physical world, by taking into account robot embodiment and the physical properties of objects.
- Abstract(参考訳): オープンワールドとの効果的な対話のためには、ロボットは既知の新しい物体との相互作用が目的に向かってどのように役立つかを理解する必要がある。
この理解の重要な側面は、様々な方法で物体を操作することによって達成される潜在的な効果を表す、物体の余裕を検出することである。
提案手法は,大規模言語モデル (LLM) と視覚言語モデル (VLM) の対話を利用して,オープンワールドのアベイランス検出を実現する。
意図した行動や効果をオープンな語彙で記述すると、環境における有用なオブジェクトが見つかる。
我々のシステムを物理的世界に接地することで、ロボットの体現と、遭遇する物体の本質的な性質を説明できる。
実験では, 異なる実施形態や意図した効果に基づいて, 適合した出力を生成できることを実証した。
この手法は、注意散らし器のセットから有用な物体を選択することができた。
VLMの物理特性の微調整により、全体的な性能が向上した。
これらの結果は,ロボットの具体化と物体の物理的特性を考慮し,身体界における手当探索の重要性を浮き彫りにしている。
関連論文リスト
- PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z) - Ditto in the House: Building Articulation Models of Indoor Scenes
through Interactive Perception [31.009703947432026]
本研究は,ロボットの意図的なインタラクションを通じて室内シーンの調音モデルを構築することを検討する。
この課題にインタラクティブな認識アプローチを導入する。
シミュレーションと実世界の両方において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-02-02T18:22:00Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - O2O-Afford: Annotation-Free Large-Scale Object-Object Affordance
Learning [24.9242853417825]
本稿では,様々なタスクに対するオブジェクト・オブジェクトのインタラクションを学習するための,統一的なアベイランス学習フレームワークを提案する。
我々は、人間のアノテーションやデモンストレーションを必要とせずに、大規模なオブジェクト・オブジェクト・アベイランス・ラーニングを行うことができる。
大規模合成データと実世界のデータを用いた実験により,提案手法の有効性が証明された。
論文 参考訳(メタデータ) (2021-06-29T04:38:12Z) - Property-Aware Robot Object Manipulation: a Generative Approach [57.70237375696411]
本研究では,操作対象の隠れた特性に適応したロボットの動きを生成する方法に焦点を当てた。
本稿では,ジェネレーティブ・アドバイサル・ネットワークを利用して,オブジェクトの特性に忠実な新しいアクションを合成する可能性について検討する。
以上の結果から,ジェネレーティブ・アドバイサル・ネットは,新規かつ有意義な輸送行動を生み出すための強力なツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-08T14:15:36Z) - Text-driven object affordance for guiding grasp-type recognition in
multimodal robot teaching [18.529563816600607]
本研究は,ロボット教育におけるテキスト駆動型物体余裕が画像に基づくグリップ型認識に与える影響について検討する。
彼らは、物体が認識性能に与える影響を調べるために、一人称手画像のラベル付きデータセットを作成しました。
論文 参考訳(メタデータ) (2021-02-27T17:03:32Z) - Object Properties Inferring from and Transfer for Human Interaction
Motions [51.896592493436984]
本稿では,人間のインタラクション動作のみからオブジェクト特性を推測する,きめ細かい動作認識手法を提案する。
我々は、慣性モーションキャプチャー装置を用いて、演奏者の多数のビデオと3D骨格の動きを収集する。
特に, 相互作用対象の重み, 脆弱性, デリカシーを推定することにより, 相互作用対象の同定を学習する。
論文 参考訳(メタデータ) (2020-08-20T14:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。