論文の概要: Physical Reasoning and Object Planning for Household Embodied Agents
- arxiv url: http://arxiv.org/abs/2311.13577v1
- Date: Wed, 22 Nov 2023 18:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 13:59:50.565619
- Title: Physical Reasoning and Object Planning for Household Embodied Agents
- Title(参考訳): 家庭内エンボディエージェントの理屈と物計画
- Authors: Ayush Agrawal, Raghav Prabhakar, Anirudh Goyal, Dianbo Liu
- Abstract要約: 我々はCommonSense Object Affordance Task (COAT)を紹介した。
COATは現実世界の環境における実践的な意思決定の複雑さに関する洞察を提供する。
私たちのコントリビューションには、最初の考慮事項に対処する洞察に富んだObject-Utilityマッピングと、2つの広範なQAデータセットが含まれています。
- 参考スコア(独自算出の注目度): 21.719773664308683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we explore the sophisticated domain of task planning for
robust household embodied agents, with a particular emphasis on the intricate
task of selecting substitute objects. We introduce the CommonSense Object
Affordance Task (COAT), a novel framework designed to analyze reasoning
capabilities in commonsense scenarios. This approach is centered on
understanding how these agents can effectively identify and utilize alternative
objects when executing household tasks, thereby offering insights into the
complexities of practical decision-making in real-world environments.Drawing
inspiration from human decision-making, we explore how large language models
tackle this challenge through three meticulously crafted commonsense
question-and-answer datasets, featuring refined rules and human annotations.
Our evaluation of state-of-the-art language models on these datasets sheds
light on three pivotal considerations: 1) aligning an object's inherent utility
with the task at hand, 2) navigating contextual dependencies (societal norms,
safety, appropriateness, and efficiency), and 3) accounting for the current
physical state of the object. To maintain accessibility, we introduce five
abstract variables reflecting an object's physical condition, modulated by
human insights to simulate diverse household scenarios. Our contributions
include insightful Object-Utility mappings addressing the first consideration
and two extensive QA datasets (15k and 130k questions) probing the intricacies
of contextual dependencies and object states. The datasets, along with our
findings, are accessible at: \url{https://github.com/com-phy-affordance/COAT}.
This research not only advances our understanding of physical commonsense
reasoning in language models but also paves the way for future improvements in
household agent intelligence.
- Abstract(参考訳): 本研究では,ロバストな家庭用エンボディエージェントのためのタスクプランニングの高度領域について検討し,特に代用オブジェクトを選択する複雑なタスクに着目した。
commonsense object affordance task(coat)は、commonsenseのシナリオにおける推論能力を分析するために設計された新しいフレームワークである。
このアプローチは, 実世界の環境における実践的意思決定の複雑さに対する洞察を与え, 人間の意思決定からインスピレーションを得て, 大規模言語モデルがこの課題にどのように対処するかを, 洗練されたルールと人間のアノテーションを特徴とする3つの精巧に構築されたコモンセンスな問合せデータセットを用いて検討する。
これらのデータセットにおける最先端言語モデルの評価は、3つの重要な考察に光を当てる。
1) 対象物固有のユーティリティを手元にあるタスクと整合させる。
2 文脈依存(社会的規範、安全性、適切性及び効率)をナビゲートし、
3) オブジェクトの現在の物理的状態を説明する。
アクセシビリティを維持するために,対象物の物理的状態を反映した5つの抽象変数を導入し,多様な家庭シナリオをシミュレートする。
私たちのコントリビューションには、最初の考慮に対処する洞察に富んだオブジェクト指向マッピングと、コンテキスト依存とオブジェクト状態の複雑さを調査する2つの広範囲なQAデータセット(15kと130kの質問)が含まれています。
データセットは、我々の発見とともに、次のようにアクセス可能である。
この研究は、言語モデルにおける物理コモンセンス推論の理解を深めるだけでなく、家庭エージェントインテリジェンスにおける将来の改善の道を開く。
関連論文リスト
- Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Chat-3D v2: Bridging 3D Scene and Large Language Models with Object
Identifiers [62.232809030044116]
会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。
本稿では,属性認識トークンと関係認識トークンを各オブジェクトに対して学習する2段階アライメント手法を提案する。
ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - SPOTS: Stable Placement of Objects with Reasoning in Semi-Autonomous
Teleoperation Systems [12.180724520887853]
配置タスクの2つの側面、安定性の堅牢性とオブジェクト配置の文脈的合理性に焦点を当てる。
提案手法は,シミュレーション駆動型物理安定性検証と大規模言語モデルの意味論的推論能力を組み合わせたものである。
論文 参考訳(メタデータ) (2023-09-25T08:13:49Z) - Core Challenges in Embodied Vision-Language Planning [11.896110519868545]
Embodied Vision-Language Planningタスクは、物理的な環境でのインタラクションにコンピュータビジョンと自然言語を活用する。
我々はこれらのタスクを統一する分類法を提案し、現在および新しいアルゴリズムアプローチの分析と比較を行う。
我々は,モデル汎用性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2023-04-05T20:37:13Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - Core Challenges in Embodied Vision-Language Planning [9.190245973578698]
本稿では,エボディード・ビジョン・ランゲージ・プランニング(Embodied Vision-Language Planning)タスクについて論じる。
我々はこれらのタスクを統一する分類法を提案し、新しいアルゴリズムアプローチと現在のアルゴリズムアプローチの分析と比較を行う。
我々は,モデル一般化性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2021-06-26T05:18:58Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。