論文の概要: From Perception to Action: An Interactive Benchmark for Vision Reasoning
- arxiv url: http://arxiv.org/abs/2602.21015v1
- Date: Tue, 24 Feb 2026 15:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.816814
- Title: From Perception to Action: An Interactive Benchmark for Vision Reasoning
- Title(参考訳): 知覚から行動へ:ビジョン推論のためのインタラクティブベンチマーク
- Authors: Yuhao Wu, Maojia Song, Yihuai Lan, Lei Wang, Zhiqiang Hu, Yao Xiao, Heng Zhou, Weihua Zheng, Dylan Raharja, Soujanya Poria, Roy Ka-Wei Lee,
- Abstract要約: Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
- 参考スコア(独自算出の注目度): 51.11355591375073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding the physical structure is essential for real-world applications such as embodied agents, interactive design, and long-horizon manipulation. Yet, prevailing Vision-Language Model (VLM) evaluations still center on structure-agnostic, single-turn setups (e.g., VQA), which fail to assess agents' ability to reason about how geometry, contact, and support relations jointly constrain what actions are possible in a dynamic environment. To address this gap, we introduce the Causal Hierarchy of Actions and Interactions (CHAIN) benchmark, an interactive 3D, physics-driven testbed designed to evaluate whether models can understand, plan, and execute structured action sequences grounded in physical constraints. CHAIN shifts evaluation from passive perception to active problem solving, spanning tasks such as interlocking mechanical puzzles and 3D stacking and packing. We conduct a comprehensive study of state-of-the-art VLMs and diffusion-based models under unified interactive settings. Our results show that top-performing models still struggle to internalize physical structure and causal constraints, often failing to produce reliable long-horizon plans and cannot robustly translate perceived structure into effective actions. The project is available at https://social-ai-studio.github.io/CHAIN/.
- Abstract(参考訳): 物理構造を理解することは、エンボディエージェント、インタラクティブデザイン、ロングホライゾン操作といった現実世界の応用には不可欠である。
しかし、VLM(Vision-Language Model)の評価は、構造に依存しない単一ターン(VQAなど)のセットアップが中心であり、動的環境においてどのようなアクションが可能であるのかをエージェントが判断する能力の評価に失敗する。
このギャップに対処するために、モデルが物理的制約に根ざした構造化されたアクションシーケンスを理解・計画・実行できるかを評価するために、インタラクティブな3次元物理駆動テストベッドであるCHAIN(Causal Hierarchy of Actions and Interactions)ベンチマークを導入する。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
我々は、統合された対話的環境下で、最先端のVLMと拡散モデルについて包括的に研究する。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
このプロジェクトはhttps://social-ai-studio.github.io/CHAIN/.comで公開されている。
関連論文リスト
- Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing [20.40288070674112]
エンドツーエンドインタラクション対応トランス(InterFormer)を提案する。
DQG(Dynamic Query Generator)、DFS(Dual-context Feature Selector)、CoCo(Conditional Co-occurrence)の3つの重要なコンポーネントを統合している。
提案モデルでは,EgoHOSの最先端性能と,非配布のミニHOI4Dデータセットの課題を両立させる。
論文 参考訳(メタデータ) (2026-02-24T06:39:18Z) - Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。
Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文 参考訳(メタデータ) (2025-12-15T18:03:42Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding [23.87664450145037]
行動検出と予測を含む行動理解は、多くの実践的応用において重要な役割を担っている。
本研究では,アクション検出と予測タスクの統合と強化を目的とした,ステート・スペクティフィック・モデル(SSM)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-12T16:10:40Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Collaborative Learning for 3D Hand-Object Reconstruction and Compositional Action Recognition from Egocentric RGB Videos Using Superquadrics [31.819336585007104]
境界ボックスに対する3次元オブジェクト表現の代替としてスーパークワッドリックを活用することを提案する。
テンプレートレスオブジェクト再構成とアクション認識の両タスクで有効性を示す。
また,動詞と名詞の訓練組み合わせがテスト分割と重複しない,より困難な課題を考慮し,行動の構成性についても検討した。
論文 参考訳(メタデータ) (2025-01-13T07:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。