Fugu-MT 論文翻訳(概要): I-PHYRE: Interactive Physical Reasoning

論文の概要: I-PHYRE: Interactive Physical Reasoning

arxiv url: http://arxiv.org/abs/2312.03009v1
Date: Mon, 4 Dec 2023 19:01:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 17:40:01.867593
Title: I-PHYRE: Interactive Physical Reasoning
Title（参考訳）: I-PHYRE:インタラクティブ物理推論
Authors: Shiqian Li, Kewen Wu, Chi Zhang, Yixin Zhu
Abstract要約: I-PHYREは、エージェントに直感的な物理的推論、多段階計画、その場介入を同時に提示するフレームワークである。 4つのゲーム分割を定式化し、エージェントの学習と対話的物理的推論の基本原理の一般化を精査する。
参考スコア（独自算出の注目度）: 27.333916608307188
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current evaluation protocols predominantly assess physical reasoning in stationary scenes, creating a gap in evaluating agents' abilities to interact with dynamic events. While contemporary methods allow agents to modify initial scene configurations and observe consequences, they lack the capability to interact with events in real time. To address this, we introduce I-PHYRE, a framework that challenges agents to simultaneously exhibit intuitive physical reasoning, multi-step planning, and in-situ intervention. Here, intuitive physical reasoning refers to a quick, approximate understanding of physics to address complex problems; multi-step denotes the need for extensive sequence planning in I-PHYRE, considering each intervention can significantly alter subsequent choices; and in-situ implies the necessity for timely object manipulation within a scene, where minor timing deviations can result in task failure. We formulate four game splits to scrutinize agents' learning and generalization of essential principles of interactive physical reasoning, fostering learning through interaction with representative scenarios. Our exploration involves three planning strategies and examines several supervised and reinforcement agents' zero-shot generalization proficiency on I-PHYRE. The outcomes highlight a notable gap between existing learning algorithms and human performance, emphasizing the imperative for more research in enhancing agents with interactive physical reasoning capabilities. The environment and baselines will be made publicly available.
Abstract（参考訳）: 現在の評価プロトコルは静的なシーンにおける物理的推論を主に評価しており、動的事象と相互作用するエージェントの能力評価のギャップを生んでいる。現代の手法では、エージェントは初期シーンの設定を変更して結果を見ることができるが、リアルタイムでイベントと対話する能力は欠如している。そこで本研究では,エージェントが直感的な理屈,多段階計画,その場介入を同時に提示するフレームワークであるi-phyreを紹介する。ここでは、直感的な物理的推論は、複雑な問題に対処する物理の素早い近似的な理解を意味し、多段階は、I-PHYREにおける広範囲なシーケンス計画の必要性を示し、それぞれの介入がその後の選択を著しく変更可能であること、その場では、微妙なタイミング偏差がタスクの失敗をもたらすシーン内での時間的オブジェクト操作の必要性を示唆している。 4つのゲーム分割を定式化し、エージェントの学習を精査し、対話的物理的推論の基本原則を一般化し、代表的なシナリオとの相互作用を通じて学習を育む。本研究は,I-PHYREにおける監視・強化エージェントのゼロショット一般化能力について,3つの計画戦略について検討する。その結果、既存の学習アルゴリズムと人間のパフォーマンスの顕著なギャップが浮き彫りになり、対話的な物理的推論能力を持つエージェントの強化に関するさらなる研究の要点が強調された。環境とベースラインは公開される予定だ。

関連論文リスト

From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。 CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文参考訳（メタデータ） (2026-02-24T15:33:02Z)
Agentic Reasoning for Large Language Models [122.81018455095999]
推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
論文参考訳（メタデータ） (2026-01-18T18:58:23Z)
Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6091162517921]
INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文参考訳（メタデータ） (2025-08-03T12:52:27Z)
Demonstrating the Continual Learning Capabilities and Practical Application of Discrete-Time Active Inference [0.0]
アクティブ推論は、エージェントが環境とどのように相互作用するかを理解するための数学的フレームワークである。本稿では,個別の時間環境で動作するエージェントのための連続学習フレームワークを提案する。我々は、エージェントがモデルを再学習し、効率的に洗練する能力を示し、金融や医療といった複雑な分野に適合する。
論文参考訳（メタデータ） (2024-09-30T21:18:46Z)
Dynamic planning in hierarchical active inference [0.0]
人間の脳が認知決定に関連する運動軌跡を推論し、導入する能力について述べる。本研究では,アクティブ推論における動的計画の話題に焦点を当てた。
論文参考訳（メタデータ） (2024-02-18T17:32:53Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:52Z)
Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文参考訳（メタデータ） (2023-05-22T17:18:29Z)
DIDER: Discovering Interpretable Dynamically Evolving Relations [14.69985920418015]
本稿では,内在的解釈可能性を備えた汎用的なエンドツーエンドインタラクションモデリングフレームワークであるDIDER,Discovering Interpretable Dynamically Evolving Relationsを紹介する。合成と実世界の両方のデータセット上でDIDERを評価する。
論文参考訳（メタデータ） (2022-08-22T20:55:56Z)
Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文参考訳（メタデータ） (2022-07-20T13:37:57Z)
On the Sensory Commutativity of Action Sequences for Embodied Agents [2.320417845168326]
群論の数学的形式論に基づくエンボディエージェントの知覚について検討する。本稿では,エージェントの自由度が環境に与える影響を計測する感覚コミュニケーション確率基準を提案する。本研究では,SCPと行動系列の可換性を用いて環境中の物体を学習する方法を実証的に説明する。
論文参考訳（メタデータ） (2020-02-13T16:58:23Z)
SPA: Verbal Interactions between Agents and Avatars in Shared Virtual Environments using Propositional Planning [61.335252950832256]
SPA(Sense-Plan-Ask)は、仮想的な仮想環境において、仮想的な人間のようなエージェントとユーザアバターの間の言語的対話を生成する。提案アルゴリズムは実行時コストを小さくし,自然言語通信を利用せずにエージェントよりも効率的に目標を達成できることが判明した。
論文参考訳（メタデータ） (2020-02-08T23:15:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。