論文の概要: Towards Object-centric Understanding for Instructional Videos
- arxiv url: http://arxiv.org/abs/2512.03479v1
- Date: Wed, 03 Dec 2025 06:14:26 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:57:48.747285
- Title: Towards Object-centric Understanding for Instructional Videos
- Title(参考訳): インストラクショナルビデオのオブジェクト中心理解に向けて
- Authors: Wenliang Guo, Yu Kong,
- Abstract要約: 107本の動画と514本のオープンエンド質問応答対に時間的根拠を付加した長文ビデオベンチマークであるObject-IVQAを紹介する。
このベンチマークは、状態進化、事前条件検証、反実的推論、誤認識を含む、オブジェクト中心推論の4つの次元を評価する。
本稿では,オブジェクト中心の計画,認識,分析,生成ツールを編成するエージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.708002119686377
- License:
- Abstract: Understanding procedural activities is crucial for developing future assistive AI that can reason about complex real-world tasks. Existing action-centric methods struggle with the flexibility of real procedures, where step order varies depending on object states. In this work, we propose to shift the focus to an object-centric paradigm by regarding actions as mechanisms that drive state transitions. To advance this direction, we introduce Object-IVQA, a long-form instructional video benchmark with 107 videos and 514 open-ended question-answer pairs annotated with temporally grounded evidence. The benchmark evaluates four dimensions of object-centric reasoning, including state evolution, precondition verification, counterfactual reasoning and mistake recognition. We further propose an agent framework that orchestrates object-centric planning, perception, analysis and generation tools, enabling explicit evidence retrieval and multi-hop reasoning across disjoint segments. Experiments show that existing large vision-language models struggle in object-level recognition and reasoning, whereas our framework achieves substantially improvement.
- Abstract(参考訳): 手続き的活動を理解することは、複雑な現実世界のタスクを推論できる将来の補助AIを開発するために不可欠である。
既存のアクション中心のメソッドは、実際のプロシージャの柔軟性に苦しむ。
本研究では、状態遷移を駆動するメカニズムとしてのアクションについて、オブジェクト中心のパラダイムに焦点を移すことを提案する。
この方向性を推し進めるために、時間的根拠を付加した107本の動画と514本のオープンエンド質問応答対を備えた長大な指導ビデオベンチマークであるObject-IVQAを紹介する。
このベンチマークは、状態進化、事前条件検証、反実的推論、誤認識を含む、オブジェクト中心推論の4つの次元を評価する。
さらに,対象中心の計画,認識,分析,生成ツールを編成するエージェントフレームワークを提案する。
実験の結果,既存の大規模視覚言語モデルはオブジェクトレベルの認識と推論に苦慮しているが,我々のフレームワークは大幅に改善されている。
関連論文リスト
- Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文 参考訳(メタデータ) (2025-09-29T18:25:40Z) - Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6091162517921]
INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。
最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。
第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-03T12:52:27Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - Provably Learning Object-Centric Representations [25.152680199034215]
我々は、オブジェクト中心の表現がいつ、監督なしに確実に学習できるかを分析する。
そこで本研究では, 基本構造オブジェクト表現が可逆的, 構成的推論モデルによって識別可能であることを証明した。
我々は、既存の対象中心モデルに対して、我々の理論が予測力を持つ証拠を提供する。
論文 参考訳(メタデータ) (2023-05-23T16:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。