論文の概要: I-PHYRE: Interactive Physical Reasoning
- arxiv url: http://arxiv.org/abs/2312.03009v1
- Date: Mon, 4 Dec 2023 19:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:40:01.867593
- Title: I-PHYRE: Interactive Physical Reasoning
- Title(参考訳): I-PHYRE:インタラクティブ物理推論
- Authors: Shiqian Li, Kewen Wu, Chi Zhang, Yixin Zhu
- Abstract要約: I-PHYREは、エージェントに直感的な物理的推論、多段階計画、その場介入を同時に提示するフレームワークである。
4つのゲーム分割を定式化し、エージェントの学習と対話的物理的推論の基本原理の一般化を精査する。
- 参考スコア(独自算出の注目度): 27.333916608307188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current evaluation protocols predominantly assess physical reasoning in
stationary scenes, creating a gap in evaluating agents' abilities to interact
with dynamic events. While contemporary methods allow agents to modify initial
scene configurations and observe consequences, they lack the capability to
interact with events in real time. To address this, we introduce I-PHYRE, a
framework that challenges agents to simultaneously exhibit intuitive physical
reasoning, multi-step planning, and in-situ intervention. Here, intuitive
physical reasoning refers to a quick, approximate understanding of physics to
address complex problems; multi-step denotes the need for extensive sequence
planning in I-PHYRE, considering each intervention can significantly alter
subsequent choices; and in-situ implies the necessity for timely object
manipulation within a scene, where minor timing deviations can result in task
failure. We formulate four game splits to scrutinize agents' learning and
generalization of essential principles of interactive physical reasoning,
fostering learning through interaction with representative scenarios. Our
exploration involves three planning strategies and examines several supervised
and reinforcement agents' zero-shot generalization proficiency on I-PHYRE. The
outcomes highlight a notable gap between existing learning algorithms and human
performance, emphasizing the imperative for more research in enhancing agents
with interactive physical reasoning capabilities. The environment and baselines
will be made publicly available.
- Abstract(参考訳): 現在の評価プロトコルは静的なシーンにおける物理的推論を主に評価しており、動的事象と相互作用するエージェントの能力評価のギャップを生んでいる。
現代の手法では、エージェントは初期シーンの設定を変更して結果を見ることができるが、リアルタイムでイベントと対話する能力は欠如している。
そこで本研究では,エージェントが直感的な理屈,多段階計画,その場介入を同時に提示するフレームワークであるi-phyreを紹介する。
ここでは、直感的な物理的推論は、複雑な問題に対処する物理の素早い近似的な理解を意味し、多段階は、I-PHYREにおける広範囲なシーケンス計画の必要性を示し、それぞれの介入がその後の選択を著しく変更可能であること、その場では、微妙なタイミング偏差がタスクの失敗をもたらすシーン内での時間的オブジェクト操作の必要性を示唆している。
4つのゲーム分割を定式化し、エージェントの学習を精査し、対話的物理的推論の基本原則を一般化し、代表的なシナリオとの相互作用を通じて学習を育む。
本研究は,I-PHYREにおける監視・強化エージェントのゼロショット一般化能力について,3つの計画戦略について検討する。
その結果、既存の学習アルゴリズムと人間のパフォーマンスの顕著なギャップが浮き彫りになり、対話的な物理的推論能力を持つエージェントの強化に関するさらなる研究の要点が強調された。
環境とベースラインは公開される予定だ。
関連論文リスト
- Demonstrating the Continual Learning Capabilities and Practical Application of Discrete-Time Active Inference [0.0]
アクティブ推論は、エージェントが環境とどのように相互作用するかを理解するための数学的フレームワークである。
本稿では,個別の時間環境で動作するエージェントのための連続学習フレームワークを提案する。
我々は、エージェントがモデルを再学習し、効率的に洗練する能力を示し、金融や医療といった複雑な分野に適合する。
論文 参考訳(メタデータ) (2024-09-30T21:18:46Z) - Dynamic planning in hierarchical active inference [0.0]
人間の脳が認知決定に関連する運動軌跡を推論し、導入する能力について述べる。
本研究では,アクティブ推論における動的計画の話題に焦点を当てた。
論文 参考訳(メタデータ) (2024-02-18T17:32:53Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - DIDER: Discovering Interpretable Dynamically Evolving Relations [14.69985920418015]
本稿では,内在的解釈可能性を備えた汎用的なエンドツーエンドインタラクションモデリングフレームワークであるDIDER,Discovering Interpretable Dynamically Evolving Relationsを紹介する。
合成と実世界の両方のデータセット上でDIDERを評価する。
論文 参考訳(メタデータ) (2022-08-22T20:55:56Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - On the Sensory Commutativity of Action Sequences for Embodied Agents [2.320417845168326]
群論の数学的形式論に基づくエンボディエージェントの知覚について検討する。
本稿では,エージェントの自由度が環境に与える影響を計測する感覚コミュニケーション確率基準を提案する。
本研究では,SCPと行動系列の可換性を用いて環境中の物体を学習する方法を実証的に説明する。
論文 参考訳(メタデータ) (2020-02-13T16:58:23Z) - SPA: Verbal Interactions between Agents and Avatars in Shared Virtual
Environments using Propositional Planning [61.335252950832256]
SPA(Sense-Plan-Ask)は、仮想的な仮想環境において、仮想的な人間のようなエージェントとユーザアバターの間の言語的対話を生成する。
提案アルゴリズムは実行時コストを小さくし,自然言語通信を利用せずにエージェントよりも効率的に目標を達成できることが判明した。
論文 参考訳(メタデータ) (2020-02-08T23:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。