論文の概要: Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation
- arxiv url: http://arxiv.org/abs/2503.10691v1
- Date: Wed, 12 Mar 2025 03:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:45.462004
- Title: Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation
- Title(参考訳): ビデオの一般化に必要な推論:サブクエスト評価による対実的ベンチマーク
- Authors: Qiji Zhou, Yifan Gong, Guangsheng Bao, Hongjie Qiu, Jinqiang Li, Xiangrong Zhu, Huajian Zhang, Yue Zhang,
- Abstract要約: マルチ次元マルチモーダルベンチマークであるtextbfunderline(textbfunderlineCounterfactual textbfunderlineEo textbfunderlineReasoning)を導入する。
複雑なクエリを構造化されたサブクエリに分解し、きめ細かい推論分析を可能にする。
- 参考スコア(独自算出の注目度): 19.46864730994867
- License:
- Abstract: Counterfactual reasoning is crucial for robust video understanding but remains underexplored in existing multimodal benchmarks. In this paper, we introduce \textbf{COVER} (\textbf{\underline{CO}}unterfactual \textbf{\underline{V}}id\textbf{\underline{E}}o \textbf{\underline{R}}easoning), a multidimensional multimodal benchmark that systematically evaluates MLLMs across the abstract-concrete and perception-cognition dimensions. Beyond prior multimodal benchmarks, COVER decomposes complex queries into structured sub-questions, enabling fine-grained reasoning analysis. Experiments on commercial and open-source models reveal a strong correlation between sub-question accuracy and counterfactual reasoning performance, highlighting the role of structured inference in video understanding. Furthermore, our results suggest a key insight: enhancing the reasoning capability of models is essential for improving the robustness of video understanding. COVER establishes a new standard for assessing MLLMs' logical reasoning abilities in dynamic environments.
- Abstract(参考訳): 対実的推論は、堅牢なビデオ理解には不可欠であるが、既存のマルチモーダルベンチマークでは未探索のままである。
本稿では,多次元マルチモーダルベンチマークである \textbf{COVER} (\textbf{\underline{CO}}unterfactual \textbf{\underline{V}}id\textbf{\underline{E}}o \textbf{\underline{R}}easoningを紹介する。
以前のマルチモーダルベンチマーク以外にも、COVERは複雑なクエリを構造化されたサブクエリに分解し、きめ細かい推論分析を可能にする。
商用およびオープンソースモデルに対する実験は、サブクエクション精度と反ファクト推論性能との間に強い相関関係を示し、ビデオ理解における構造化推論の役割を強調している。
さらに,本研究の結果から,映像理解の堅牢性向上には,モデルの推論能力の向上が不可欠であることが示唆された。
COVERは、動的環境におけるMLLMの論理的推論能力を評価するための新しい標準を確立している。
関連論文リスト
- CryptoX : Compositional Reasoning Evaluation of Large Language Models [18.927129952741904]
既存のベンチマークと暗号を組み合わせた評価フレームワークであるCryptoXを紹介する。
我々はCryptoBenchを用いて、広く使われているオープンソースおよびクローズドソース LLM に関する詳細な実験を行う。
コンポジション推論を独立に研究することの価値を強調し,LLMのコンポジション推論能力を高める必要性を強調した。
論文 参考訳(メタデータ) (2025-02-08T17:19:43Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation [32.930999188946345]
本稿では,ビデオ質問応答(VideoQA)の課題に取り組む。
大規模なビデオ言語モデルはベンチマークでよく機能するが、説明可能性や時空間の接地性が欠けていることが多い。
本稿では,自動生成したCoTを命令調整プロセスに組み込むことで,モデルを強化する手法であるAoTDを提案する。
論文 参考訳(メタデータ) (2024-12-02T16:37:50Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文 参考訳(メタデータ) (2024-06-12T12:54:27Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Understanding Masked Autoencoders via Hierarchical Latent Variable
Models [109.35382136147349]
Masked Autoencoder (MAE) は近年,様々な視覚タスクにおいて顕著な成功を収めている。
MAEに関する興味深い経験的観察の出現にもかかわらず、理論的に原理化された理解はいまだに欠如している。
論文 参考訳(メタデータ) (2023-06-08T03:00:10Z) - Counterfactual Explanations Using Optimization With Constraint Learning [0.0]
制約学習を用いた最適化手法(CE-OCL)を提案する。
具体的には,制約学習フレームワークによる最適化を,対実的説明の生成に活用する方法について議論する。
また,データ多様体の近接性と多様性に対処する2つの新しいモデリング手法を提案する。
論文 参考訳(メタデータ) (2022-09-22T13:27:21Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。