Fugu-MT 論文翻訳(概要): Physical Reasoning and Object Planning for Household Embodied Agents

論文の概要: Physical Reasoning and Object Planning for Household Embodied Agents

arxiv url: http://arxiv.org/abs/2311.13577v1
Date: Wed, 22 Nov 2023 18:32:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 13:59:50.565619
Title: Physical Reasoning and Object Planning for Household Embodied Agents
Title（参考訳）: 家庭内エンボディエージェントの理屈と物計画
Authors: Ayush Agrawal, Raghav Prabhakar, Anirudh Goyal, Dianbo Liu
Abstract要約: 我々はCommonSense Object Affordance Task (COAT)を紹介した。 COATは現実世界の環境における実践的な意思決定の複雑さに関する洞察を提供する。私たちのコントリビューションには、最初の考慮事項に対処する洞察に富んだObject-Utilityマッピングと、2つの広範なQAデータセットが含まれています。
参考スコア（独自算出の注目度）: 21.719773664308683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, we explore the sophisticated domain of task planning for robust household embodied agents, with a particular emphasis on the intricate task of selecting substitute objects. We introduce the CommonSense Object Affordance Task (COAT), a novel framework designed to analyze reasoning capabilities in commonsense scenarios. This approach is centered on understanding how these agents can effectively identify and utilize alternative objects when executing household tasks, thereby offering insights into the complexities of practical decision-making in real-world environments.Drawing inspiration from human decision-making, we explore how large language models tackle this challenge through three meticulously crafted commonsense question-and-answer datasets, featuring refined rules and human annotations. Our evaluation of state-of-the-art language models on these datasets sheds light on three pivotal considerations: 1) aligning an object's inherent utility with the task at hand, 2) navigating contextual dependencies (societal norms, safety, appropriateness, and efficiency), and 3) accounting for the current physical state of the object. To maintain accessibility, we introduce five abstract variables reflecting an object's physical condition, modulated by human insights to simulate diverse household scenarios. Our contributions include insightful Object-Utility mappings addressing the first consideration and two extensive QA datasets (15k and 130k questions) probing the intricacies of contextual dependencies and object states. The datasets, along with our findings, are accessible at: \url{https://github.com/com-phy-affordance/COAT}. This research not only advances our understanding of physical commonsense reasoning in language models but also paves the way for future improvements in household agent intelligence.
Abstract（参考訳）: 本研究では,ロバストな家庭用エンボディエージェントのためのタスクプランニングの高度領域について検討し,特に代用オブジェクトを選択する複雑なタスクに着目した。 commonsense object affordance task(coat)は、commonsenseのシナリオにおける推論能力を分析するために設計された新しいフレームワークである。このアプローチは, 実世界の環境における実践的意思決定の複雑さに対する洞察を与え, 人間の意思決定からインスピレーションを得て, 大規模言語モデルがこの課題にどのように対処するかを, 洗練されたルールと人間のアノテーションを特徴とする3つの精巧に構築されたコモンセンスな問合せデータセットを用いて検討する。これらのデータセットにおける最先端言語モデルの評価は、3つの重要な考察に光を当てる。 1) 対象物固有のユーティリティを手元にあるタスクと整合させる。 2 文脈依存(社会的規範、安全性、適切性及び効率)をナビゲートし、 3) オブジェクトの現在の物理的状態を説明する。アクセシビリティを維持するために,対象物の物理的状態を反映した5つの抽象変数を導入し,多様な家庭シナリオをシミュレートする。私たちのコントリビューションには、最初の考慮に対処する洞察に富んだオブジェクト指向マッピングと、コンテキスト依存とオブジェクト状態の複雑さを調査する2つの広範囲なQAデータセット(15kと130kの質問)が含まれています。データセットは、我々の発見とともに、次のようにアクセス可能である。この研究は、言語モデルにおける物理コモンセンス推論の理解を深めるだけでなく、家庭エージェントインテリジェンスにおける将来の改善の道を開く。

関連論文リスト

EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World? [52.99661576320663]
マルチモーダル・大規模言語モデル(MLLM)は、自我中心の視覚応用において画期的な進歩を遂げた。 EOC-Benchは、動的自我中心のシナリオにおいて、オブジェクト中心の具体的認識を体系的に評価するために設計された革新的なベンチマークである。 EOC-Benchに基づく各種プロプライエタリ,オープンソース,オブジェクトレベルのMLLMの総合評価を行う。
論文参考訳（メタデータ） (2025-06-05T17:44:12Z)
Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文参考訳（メタデータ） (2024-10-09T19:37:01Z)
Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文参考訳（メタデータ） (2024-05-13T14:44:22Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
SPOTS: Stable Placement of Objects with Reasoning in Semi-Autonomous Teleoperation Systems [12.180724520887853]
配置タスクの2つの側面、安定性の堅牢性とオブジェクト配置の文脈的合理性に焦点を当てる。提案手法は,シミュレーション駆動型物理安定性検証と大規模言語モデルの意味論的推論能力を組み合わせたものである。
論文参考訳（メタデータ） (2023-09-25T08:13:49Z)
Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文参考訳（メタデータ） (2023-05-22T17:18:29Z)
Core Challenges in Embodied Vision-Language Planning [11.896110519868545]
Embodied Vision-Language Planningタスクは、物理的な環境でのインタラクションにコンピュータビジョンと自然言語を活用する。我々はこれらのタスクを統一する分類法を提案し、現在および新しいアルゴリズムアプローチの分析と比較を行う。我々は,モデル汎用性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文参考訳（メタデータ） (2023-04-05T20:37:13Z)
ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文参考訳（メタデータ） (2021-09-16T14:00:59Z)
Knowledge-driven Data Construction for Zero-shot Evaluation in Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文参考訳（メタデータ） (2020-11-07T22:52:21Z)
Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文参考訳（メタデータ） (2020-10-28T19:27:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。