論文の概要: \textit{ViRectify}: A Challenging Benchmark for Video Reasoning Correction with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2512.01424v1
- Date: Mon, 01 Dec 2025 09:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.770043
- Title: \textit{ViRectify}: A Challenging Benchmark for Video Reasoning Correction with Multimodal Large Language Models
- Title(参考訳): \textit{ViRectify}:マルチモーダル大言語モデルによるビデオ推論補正のためのチェアリングベンチマーク
- Authors: Xusen Hei, Jiali Chen, Jinyu Yang, Mengchen Zhao, Yi Cai,
- Abstract要約: 動的知覚、科学的推論、具体的意思決定領域にまたがる30textitKインスタンスのデータセットを構築した。
textitViRectifyでは、MLLMに対してステップワイドなエラー識別を行い、重要なビデオエビデンスを根拠とした合理性を生成する。
また,視覚的エビデンスに基づく補正手法として,段階的誤り軌道と報酬モデルを組み合わせた軌道証拠駆動補正手法を提案する。
- 参考スコア(独自算出の注目度): 23.37951284612929
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As multimodal large language models (MLLMs) frequently exhibit errors in complex video reasoning scenarios, correcting these errors is critical for uncovering their weaknesses and improving performance. However, existing benchmarks lack systematic evaluation of MLLMs' ability to identify and correct these video reasoning errors. To bridge this gap, we propose \textit{ViRectify}, a comprehensive benchmark to evaluate their fine-grained correction capability. Through an AI-assisted annotation pipeline with human verification, we construct a dataset of over 30\textit{K} instances spanning dynamic perception, scientific reasoning, and embodied decision-making domains. In \textit{ViRectify}, we challenge MLLMs to perform step-wise error identification and generate rationales with key video evidence grounding. In addition, we further propose the trajectory evidence-driven correction framework, comprising step-wise error trajectory and reward modeling on visual evidence-grounded correction. It encourages the model to explicitly concentrate on error propagation and key timestamps for correction. Extensive evaluation across 16 advanced MLLMs demonstrates that our \textit{ViRectify} serves as a challenging testbed, where GPT-5 achieves only 31.94\% correction accuracy. Our framework enables a Qwen2.5-VL-7B to consistently outperform the variants of 72B on \textit{ViRectify}, showing the effectiveness of our approach. Further analysis uncovers systematic asymmetries in error correction across models, and our dataset is also a valuable data resource to perform reflection learning. We believe \textit{ViRectify} provides a new direction for comprehensively evaluating the advanced MLLMs in video reasoning.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は複雑なビデオ推論のシナリオでエラーをしばしば示しているため、これらのエラーを修正することは、その弱点を明らかにし、性能を改善するために重要である。
しかし、既存のベンチマークでは、これらのビデオ推論エラーを特定し修正するMLLMの能力を体系的に評価していない。
このギャップを埋めるため,より詳細な補正能力を評価するための総合的なベンチマークである「textit{ViRectify}」を提案する。
人間の検証を伴うAI支援アノテーションパイプラインを通じて、動的知覚、科学的推論、具体化された意思決定ドメインにまたがる30以上のtextit{K}インスタンスのデータセットを構築する。
In \textit{ViRectify}, we challenge MLLMs to perform step-wise error identification and generate rationals with key video evidence grounding。
さらに,視覚的エビデンスに基づく補正手法として,ステップワイズな誤り軌道と報奨モデルによる視覚的エビデンスに基づく補正手法を提案する。
これは、モデルがエラーの伝播と修正のためのキータイムスタンプに明示的に集中することを奨励する。
16の先進MLLMの広範な評価は、GPT-5が31.94 %の精度しか達成できないような、我々の \textit{ViRectify} が挑戦的なテストベッドとして機能することを証明している。
我々のフレームワークは、Qwen2.5-VL-7B が 72B の変種を textit{ViRectify} で一貫して上回り、我々のアプローチの有効性を示す。
さらに分析により,モデル間の誤り訂正の体系的非対称性が明らかとなり,我々のデータセットはリフレクション学習を行うための貴重なデータ資源でもある。
We believe \textit{ViRectify} provides a new direction for our advanced MLLMs in video reasoning。
関連論文リスト
- Vision Language Models Are Not (Yet) Spelling Correctors [0.742779257315787]
視覚入力からのスペル補正は視覚言語モデル(VLM)に固有の課題をもたらす
我々は、中国語と英語で実世界の視覚スペル補正について、VLMを体系的に評価する最初のベンチマークであるReViCoを提案する。
論文 参考訳(メタデータ) (2025-09-22T07:10:42Z) - Towards Automated Error Discovery: A Study in Conversational AI [48.735443116662026]
本稿では,会話型AIにおけるエラーの検出と定義のためのフレームワークであるAutomated Error Discoveryを紹介する。
また,その実装に対するエンコーダに基づくアプローチとして,SEEED(Soft Clustering Extended-Based Error Detection)を提案する。
論文 参考訳(メタデータ) (2025-09-13T14:53:22Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。