論文の概要: Chain Of Interaction Benchmark (COIN): When Reasoning meets Embodied Interaction
- arxiv url: http://arxiv.org/abs/2604.16886v1
- Date: Sat, 18 Apr 2026 07:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.216807
- Title: Chain Of Interaction Benchmark (COIN): When Reasoning meets Embodied Interaction
- Title(参考訳): 相互作用の連鎖(COIN):推論が身体的相互作用に合うとき
- Authors: Xianhao Wang, Xiaojian Ma, Haozhe Hu, Rongpeng Su, Yutian Cheng, Zhou Ziheng, Hangxin Liu, Lei Liu, Bin Li, Qing Li,
- Abstract要約: 現実的なロボット操作における対話的推論を評価するためのベンチマークであるCOINを紹介する。
まず、日々のシナリオでCOIN-50:50の対話タスクを構築し、因果依存タスクに必要なCOIN-Primitiveを作成する。
第2に、低コストな移動体AR遠隔操作システムを開発し、プリミティブタスク毎に50回のデモを行い、COIN-Primitiveデータセットを収集する。
第3に、CodeAsPolicy、VLA、言語条件付きH-VLAアプローチを評価するために、実行安定性と一般化ロバスト性に関する体系的評価指標を開発する。
- 参考スコア(独自算出の注目度): 12.219913017710125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalist embodied agents must perform interactive, causally-dependent reasoning, continually interacting with the environment, acquiring information, and updating plans to solve long-horizon tasks before they could be adopted in real-life scenarios. For instance, retrieving an apple from a cabinet may require opening multiple doors and drawers before the apple becomes visible and reachable, demanding sequential interaction under partial observability. However, existing benchmarks fail to systematically evaluate this essential capability. We introduce COIN, a benchmark designed to assess interactive reasoning in realistic robotic manipulation through three key contributions. First, we construct COIN-50: 50 interactive tasks in daily scenarios, and create COIN-Primitive required by causally-dependent tasks, and COIN-Composition with mid-term complexity for skill learning and generalization evaluation. Second, we develop a low-cost mobile AR teleoperation system and collect the COIN-Primitive Dataset with 50 demonstrations per primitive task (1,000 in total). Third, we develop systematic evaluation metrics about execution stability and generalization robustness to evaluate CodeAsPolicy, VLA, and language-conditioned H-VLA approaches. Our comprehensive evaluation reveals critical limitations in current methods: models struggle with interactive reasoning tasks due to significant gaps between visual understanding and motor execution. We provide fine-grained analysis of these limitations.
- Abstract(参考訳): ジェネラリストの具体化エージェントは、対話的で因果的に依存した推論を実行し、環境と継続的に対話し、情報を取得し、現実のシナリオで採用される前に長期の課題を解決する計画を更新しなければならない。
例えば、リンゴをキャビネットから取り出すには、リンゴが見えるようになる前に複数のドアと引き出しを開く必要があり、部分的な可観測性の下でのシーケンシャルな相互作用が要求される。
しかし、既存のベンチマークは、この本質的な能力を体系的に評価することができない。
現実的なロボット操作における対話的推論を3つの重要なコントリビューションを通じて評価するためのベンチマークであるCOINを紹介する。
まず、日常のシナリオにおいて、COIN-50:50の対話的タスクを構築し、因果依存タスクに必要なCOIN-Primitiveを作成し、スキル学習と一般化評価のための中期的複雑さを伴うCOIN-Compositionを作成する。
第2に、低コストなモバイルAR遠隔操作システムを開発し、COIN-Primitive Datasetをプリミティブタスク毎に50回のデモ(合計1000回)で収集する。
第3に、CodeAsPolicy、VLA、言語条件付きH-VLAアプローチを評価するために、実行安定性と一般化ロバスト性に関する体系的な評価指標を開発する。
モデルでは視覚的理解と運動実行の間に大きなギャップがあるため,対話的推論タスクに苦しむ。
これらの制限を詳細に分析する。
関連論文リスト
- SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models [86.19617358080016]
Social Omniは、3つのコア次元にわたる対話性の評価を運用するベンチマークである。
Social Omniは2000の知覚サンプルと209の相互作用生成インスタンスの品質管理された診断セットを備えている。
本分析により,モデルの知覚的精度と,文脈的に適切な割り込みを生成する能力との間に顕著な疎結合が明らかとなった。
論文 参考訳(メタデータ) (2026-03-17T17:58:44Z) - From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - IDRBench: Interactive Deep Research Benchmark [22.089706516440902]
インタラクティブディープリサーチを体系的に評価する最初のベンチマークであるIDRBenchを紹介する。
IDRBenchはモジュール型マルチエージェントリサーチフレームワークとオンデマンドインタラクション、スケーラブルなリファレンスグラウンドユーザシミュレータ、インタラクション認識評価スイートを組み合わせたものだ。
論文 参考訳(メタデータ) (2026-01-10T20:29:12Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World? [52.99661576320663]
マルチモーダル・大規模言語モデル(MLLM)は、自我中心の視覚応用において画期的な進歩を遂げた。
EOC-Benchは、動的自我中心のシナリオにおいて、オブジェクト中心の具体的認識を体系的に評価するために設計された革新的なベンチマークである。
EOC-Benchに基づく各種プロプライエタリ,オープンソース,オブジェクトレベルのMLLMの総合評価を行う。
論文 参考訳(メタデータ) (2025-06-05T17:44:12Z) - EgoNormia: Benchmarking Physical Social Norm Understanding [52.87904722234434]
EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
我々の研究は、現在の最先端のビジョン言語モデル(VLM)は、堅固な標準理解が欠如していることを示し、EGONORMIAでは最大54%、EGONORMIAでは65%と評価された。
論文 参考訳(メタデータ) (2025-02-27T19:54:16Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - What to Say and When to Say it: Live Fitness Coaching as a Testbed for Situated Interaction [5.958765450103163]
QEVDベンチマークとデータセットは、フィットネスコーチングの挑戦的かつ制御されながら現実的な領域における人間とAIの相互作用を探索するものだ。
このベンチマークでは、複雑な人間の行動を認識し、起こりうる誤りを特定し、リアルタイムで適切なフィードバックを提供するために、視覚言語モデルが必要である。
そこで本研究では,適切なタイミングで適切なフィードバックで人間の行動に非同期に応答できる,シンプルなエンドツーエンドストリーミングベースラインを提案する。
論文 参考訳(メタデータ) (2024-07-11T00:10:45Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。