論文の概要: I-PHYRE: Interactive Physical Reasoning
- arxiv url: http://arxiv.org/abs/2312.03009v2
- Date: Mon, 25 Mar 2024 05:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:15:55.012636
- Title: I-PHYRE: Interactive Physical Reasoning
- Title(参考訳): I-PHYRE:インタラクティブ物理推論
- Authors: Shiqian Li, Kewen Wu, Chi Zhang, Yixin Zhu,
- Abstract要約: I-PHYREは、エージェントに直感的な物理的推論、多段階計画、その場介入を同時に提示するフレームワークである。
4つのゲーム分割を定式化し、エージェントの学習と対話的物理的推論の基本原理の一般化を精査する。
- 参考スコア(独自算出の注目度): 25.02124862476204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current evaluation protocols predominantly assess physical reasoning in stationary scenes, creating a gap in evaluating agents' abilities to interact with dynamic events. While contemporary methods allow agents to modify initial scene configurations and observe consequences, they lack the capability to interact with events in real time. To address this, we introduce I-PHYRE, a framework that challenges agents to simultaneously exhibit intuitive physical reasoning, multi-step planning, and in-situ intervention. Here, intuitive physical reasoning refers to a quick, approximate understanding of physics to address complex problems; multi-step denotes the need for extensive sequence planning in I-PHYRE, considering each intervention can significantly alter subsequent choices; and in-situ implies the necessity for timely object manipulation within a scene, where minor timing deviations can result in task failure. We formulate four game splits to scrutinize agents' learning and generalization of essential principles of interactive physical reasoning, fostering learning through interaction with representative scenarios. Our exploration involves three planning strategies and examines several supervised and reinforcement agents' zero-shot generalization proficiency on I-PHYRE. The outcomes highlight a notable gap between existing learning algorithms and human performance, emphasizing the imperative for more research in enhancing agents with interactive physical reasoning capabilities. The environment and baselines will be made publicly available.
- Abstract(参考訳): 現在の評価プロトコルは、静止シーンにおける身体的推論を主に評価し、動的事象と相互作用するエージェントの能力を評価するギャップを生じさせる。
現代の手法では、エージェントは初期シーンの設定を変更して結果を見ることができるが、リアルタイムでイベントと対話する能力は欠如している。
この問題に対処するため,エージェントが直感的な身体的推論,多段階計画,インサイト介入を同時に実施するためのフレームワークであるI-PHYREを紹介した。
ここでは、直感的な物理的推論は、複雑な問題に対処する物理の素早い近似的な理解を意味し、多段階は、I-PHYREにおける広範囲なシーケンス計画の必要性を示し、それぞれの介入がその後の選択を著しく変更可能であること、その場では、微妙なタイミング偏差がタスクの失敗をもたらすシーン内での時間的オブジェクト操作の必要性を示唆している。
エージェントの学習を精査し、対話的な物理的推論の基本原理を一般化し、代表的シナリオとの相互作用を通じて学習を促進するために、4つのゲーム分割を定式化する。
本研究は,I-PHYREにおける監視・強化エージェントのゼロショット一般化能力について,3つの計画戦略について検討する。
これらの結果は、既存の学習アルゴリズムと人間のパフォーマンスとの間に顕著なギャップを浮き彫りにしており、対話的な身体的推論能力を持つエージェントを強化するために、さらなる研究が不可欠であることを強調している。
環境とベースラインは公開されます。
関連論文リスト
- Demonstrating the Continual Learning Capabilities and Practical Application of Discrete-Time Active Inference [0.0]
アクティブ推論は、エージェントが環境とどのように相互作用するかを理解するための数学的フレームワークである。
本稿では,個別の時間環境で動作するエージェントのための連続学習フレームワークを提案する。
我々は、エージェントがモデルを再学習し、効率的に洗練する能力を示し、金融や医療といった複雑な分野に適合する。
論文 参考訳(メタデータ) (2024-09-30T21:18:46Z) - Dynamic planning in hierarchical active inference [0.0]
人間の脳が認知決定に関連する運動軌跡を推論し、導入する能力について述べる。
本研究では,アクティブ推論における動的計画の話題に焦点を当てた。
論文 参考訳(メタデータ) (2024-02-18T17:32:53Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - DIDER: Discovering Interpretable Dynamically Evolving Relations [14.69985920418015]
本稿では,内在的解釈可能性を備えた汎用的なエンドツーエンドインタラクションモデリングフレームワークであるDIDER,Discovering Interpretable Dynamically Evolving Relationsを紹介する。
合成と実世界の両方のデータセット上でDIDERを評価する。
論文 参考訳(メタデータ) (2022-08-22T20:55:56Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - On the Sensory Commutativity of Action Sequences for Embodied Agents [2.320417845168326]
群論の数学的形式論に基づくエンボディエージェントの知覚について検討する。
本稿では,エージェントの自由度が環境に与える影響を計測する感覚コミュニケーション確率基準を提案する。
本研究では,SCPと行動系列の可換性を用いて環境中の物体を学習する方法を実証的に説明する。
論文 参考訳(メタデータ) (2020-02-13T16:58:23Z) - SPA: Verbal Interactions between Agents and Avatars in Shared Virtual
Environments using Propositional Planning [61.335252950832256]
SPA(Sense-Plan-Ask)は、仮想的な仮想環境において、仮想的な人間のようなエージェントとユーザアバターの間の言語的対話を生成する。
提案アルゴリズムは実行時コストを小さくし,自然言語通信を利用せずにエージェントよりも効率的に目標を達成できることが判明した。
論文 参考訳(メタデータ) (2020-02-08T23:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。