論文の概要: ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2512.01424v3
- Date: Thu, 04 Dec 2025 07:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 14:54:32.854149
- Title: ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimodal Large Language Models
- Title(参考訳): ViRectify: マルチモーダル大言語モデルによるビデオ推論補正のためのベンチマーク
- Authors: Xusen Hei, Jiali Chen, Jinyu Yang, Mengchen Zhao, Yi Cai,
- Abstract要約: 動的知覚、科学的推論、具体化された意思決定ドメインにまたがる30K以上のインスタンスのデータセットを構築します。
ViRectifyでは、MLLMに対してステップワイドな誤り識別を行い、重要なビデオ証拠を根拠とした合理性を生成する。
また,視覚的エビデンスに基づく補正手法として,段階的誤り軌道と報酬モデルを組み合わせた軌道証拠駆動補正手法を提案する。
- 参考スコア(独自算出の注目度): 23.37951284612929
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As multimodal large language models (MLLMs) frequently exhibit errors in complex video reasoning scenarios, correcting these errors is critical for uncovering their weaknesses and improving performance. However, existing benchmarks lack systematic evaluation of MLLMs' ability to identify and correct these video reasoning errors. To bridge this gap, we propose ViRectify, a comprehensive benchmark to evaluate their fine-grained correction capability. Through an AI-assisted annotation pipeline with human verification, we construct a dataset of over 30K instances spanning dynamic perception, scientific reasoning, and embodied decision-making domains. In ViRectify, we challenge MLLMs to perform step-wise error identification and generate rationales with key video evidence grounding. In addition, we further propose the trajectory evidence-driven correction framework, comprising step-wise error trajectory and reward modeling on visual evidence-grounded correction. It encourages the model to explicitly concentrate on error propagation and key timestamps for correction. Extensive evaluation across 16 advanced MLLMs demonstrates that our ViRectify serves as a challenging testbed, where GPT-5 achieves only 31.94% correction accuracy. Our framework enables a Qwen2.5-VL-7B to consistently outperform the variants of 72B on ViRectify, showing the effectiveness of our approach. Further analysis uncovers systematic asymmetries in error correction across models, and our dataset is also a valuable data resource to perform reflection learning. We believe ViRectify provides a new direction for comprehensively evaluating the advanced MLLMs in video reasoning.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は複雑なビデオ推論のシナリオでエラーをしばしば示しているため、これらのエラーを修正することは、その弱点を明らかにし、性能を改善するために重要である。
しかし、既存のベンチマークでは、これらのビデオ推論エラーを特定し修正するMLLMの能力を体系的に評価していない。
このギャップを埋めるため、我々はその微粒化補正能力を評価するための総合的なベンチマークViRectifyを提案する。
人間の検証を伴うAI支援のアノテーションパイプラインを通じて、動的知覚、科学的推論、具体化された意思決定ドメインにまたがる30K以上のインスタンスのデータセットを構築します。
ViRectifyでは、MLLMに対してステップワイドな誤り識別を行い、重要なビデオ証拠を根拠とした合理性を生成する。
さらに,視覚的エビデンスに基づく補正手法として,ステップワイズな誤り軌道と報奨モデルによる視覚的エビデンスに基づく補正手法を提案する。
これは、モデルがエラーの伝播と修正のためのキータイムスタンプに明示的に集中することを奨励する。
16種類の先進MLLMの広範囲な評価により、我々のViRectifyは、GPT-5が31.94%の精度しか達成できない、挑戦的なテストベッドとして機能することが示された。
我々のフレームワークは、Qwen2.5-VL-7B が ViRectify 上で 72B の変種を一貫して上回り、我々のアプローチの有効性を示す。
さらに分析により,モデル間の誤り訂正の体系的非対称性が明らかとなり,我々のデータセットはリフレクション学習を行うための貴重なデータ資源でもある。
ViRectifyはビデオ推論における高度なMLLMを包括的に評価するための新しい方向を提供すると考えている。
関連論文リスト
- History-Guided Iterative Visual Reasoning with Self-Correction [29.952971071458574]
大きな言語モデル(MLLM)の推論信頼性を向上させるための自己整合性手法
本稿では,繰り返し検証と動的誤り訂正の人間の推論行動に触発されたH-GIVRフレームワークを提案する。
このフレームワークは計算コストを低く保ちながら、クロスモーダル推論精度を著しく向上させることができる。
論文 参考訳(メタデータ) (2026-02-04T10:42:06Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - Vision Language Models Are Not (Yet) Spelling Correctors [0.742779257315787]
視覚入力からのスペル補正は視覚言語モデル(VLM)に固有の課題をもたらす
我々は、中国語と英語で実世界の視覚スペル補正について、VLMを体系的に評価する最初のベンチマークであるReViCoを提案する。
論文 参考訳(メタデータ) (2025-09-22T07:10:42Z) - Towards Automated Error Discovery: A Study in Conversational AI [48.735443116662026]
本稿では,会話型AIにおけるエラーの検出と定義のためのフレームワークであるAutomated Error Discoveryを紹介する。
また,その実装に対するエンコーダに基づくアプローチとして,SEEED(Soft Clustering Extended-Based Error Detection)を提案する。
論文 参考訳(メタデータ) (2025-09-13T14:53:22Z) - Robust Diagram Reasoning: A Framework for Enhancing LVLM Performance on Visually Perturbed Scientific Diagrams [0.81996963503528]
LLM(Large Language Models)とLVLM(Large Language Models)は、科学と工学の応用を大いに約束する。
既存の評価ベンチマークはこの課題を概ね見落としており、LVLMの堅牢な推論能力は過小評価されている。
本稿では,ロバストダイアグラム推論(RDR)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-08-23T09:50:58Z) - Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline [58.832237984587664]
VNLI-Critiqueは,自動文レベルの事実性分類と批判生成のためのモデルである。
1) VNLI-CritiqueはM-HalDetectベンチマークの最先端性能によって検証された堅牢な一般化を実証し、(2) VNLI-CritiqueによるDOCCI-Critique向けAutoRaterは信頼性の高いVLMランキングを提供し、人間の事実性判断と優れた整合性を示す。
論文 参考訳(メタデータ) (2025-06-09T10:57:26Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - RETAIN: Interactive Tool for Regression Testing Guided LLM Migration [8.378294455013284]
RETAIN(Regression Testing Guided LLM migrAtIoN)は、LLMマイグレーションにおける回帰テスト用に明示的に設計されたツールである。
自動評価と経験的ユーザスタディにより、RETAINは手動による評価と比較して、参加者が2倍のエラーを識別し、75%以上のプロンプトで実験し、与えられた時間枠で12%高いスコアを得ることができた。
論文 参考訳(メタデータ) (2024-09-05T22:22:57Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。