論文の概要: Physical Reasoning and Object Planning for Household Embodied Agents
- arxiv url: http://arxiv.org/abs/2311.13577v2
- Date: Wed, 23 Oct 2024 17:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:53:01.776153
- Title: Physical Reasoning and Object Planning for Household Embodied Agents
- Title(参考訳): 家庭内体化剤の理学療法と対象計画
- Authors: Ayush Agrawal, Raghav Prabhakar, Anirudh Goyal, Dianbo Liu,
- Abstract要約: 我々はCommonSense Object Affordance Task (COAT)を紹介した。
COATは現実世界の環境における実践的な意思決定の複雑さに関する洞察を提供する。
コントリビューションには、3つの要因すべてに対する洞察に富んだ人間の嗜好マッピングと4つの広範囲なQAデータセットが含まれています。
- 参考スコア(独自算出の注目度): 19.88210708022216
- License:
- Abstract: In this study, we explore the sophisticated domain of task planning for robust household embodied agents, with a particular emphasis on the intricate task of selecting substitute objects. We introduce the CommonSense Object Affordance Task (COAT), a novel framework designed to analyze reasoning capabilities in commonsense scenarios. This approach is centered on understanding how these agents can effectively identify and utilize alternative objects when executing household tasks, thereby offering insights into the complexities of practical decision-making in real-world environments. Drawing inspiration from factors affecting human decision-making, we explore how large language models tackle this challenge through four meticulously crafted commonsense question-and-answer datasets featuring refined rules and human annotations. Our evaluation of state-of-the-art language models on these datasets sheds light on three pivotal considerations: 1) aligning an object's inherent utility with the task at hand, 2) navigating contextual dependencies (societal norms, safety, appropriateness, and efficiency), and 3) accounting for the current physical state of the object. To maintain accessibility, we introduce five abstract variables reflecting an object's physical condition, modulated by human insights, to simulate diverse household scenarios. Our contributions include insightful human preference mappings for all three factors and four extensive QA datasets (2K, 15k, 60k, 70K questions) probing the intricacies of utility dependencies, contextual dependencies and object physical states. The datasets, along with our findings, are accessible at: https://github.com/Ayush8120/COAT. This research not only advances our understanding of physical commonsense reasoning in language models but also paves the way for future improvements in household agent intelligence.
- Abstract(参考訳): 本研究では,ロバストな家庭用エンボディエージェントのためのタスクプランニングの高度領域について検討し,特に代用オブジェクトを選択する複雑なタスクに着目した。
我々はCommonSense Object Affordance Task (COAT)を紹介した。
このアプローチは、これらのエージェントが家庭用タスクを実行する際の代替オブジェクトを効果的に識別し、活用する方法を理解することに集中し、現実世界の環境における実践的な意思決定の複雑さに関する洞察を提供する。
人間の意思決定に影響を及ぼす要因からインスピレーションを得て、我々は、洗練されたルールと人間のアノテーションを特徴とする4つの精巧に構築されたコモンセンスな質問と回答のデータセットを通して、大規模な言語モデルがこの課題にどのように対処するかを探求する。
これらのデータセットの最先端言語モデルに対する我々の評価は、3つの重要な考察に光を当てている。
1) 対象物固有のユーティリティを手元にあるタスクと整合させる。
2 文脈依存(社会的規範、安全性、適切性及び効率)をナビゲートし、
3) オブジェクトの現在の物理的状態を説明する。
アクセシビリティを維持するために、人間の洞察によって変調された物体の物理的状態を反映した5つの抽象変数を導入し、多様な家庭シナリオをシミュレートする。
私たちのコントリビューションには、3つの要因すべてに対する洞察に富んだ人間の嗜好マッピングと、4つの広範囲なQAデータセット(2K, 15k, 60k, 70K)が含まれています。
データセットと私たちの発見は、https://github.com/Ayush8120/COAT.comでアクセスできます。
この研究は、言語モデルにおける物理コモンセンス推論の理解を深めるだけでなく、家庭エージェントインテリジェンスにおける将来の改善の道を開く。
関連論文リスト
- Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - SPOTS: Stable Placement of Objects with Reasoning in Semi-Autonomous
Teleoperation Systems [12.180724520887853]
配置タスクの2つの側面、安定性の堅牢性とオブジェクト配置の文脈的合理性に焦点を当てる。
提案手法は,シミュレーション駆動型物理安定性検証と大規模言語モデルの意味論的推論能力を組み合わせたものである。
論文 参考訳(メタデータ) (2023-09-25T08:13:49Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Core Challenges in Embodied Vision-Language Planning [11.896110519868545]
Embodied Vision-Language Planningタスクは、物理的な環境でのインタラクションにコンピュータビジョンと自然言語を活用する。
我々はこれらのタスクを統一する分類法を提案し、現在および新しいアルゴリズムアプローチの分析と比較を行う。
我々は,モデル汎用性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2023-04-05T20:37:13Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。