Fugu-MT 論文翻訳(概要): CCTVBench: Contrastive Consistency Traffic VideoQA Benchmark for Multimodal LLMs

論文の概要: CCTVBench: Contrastive Consistency Traffic VideoQA Benchmark for Multimodal LLMs

arxiv url: http://arxiv.org/abs/2604.20460v1
Date: Wed, 22 Apr 2026 11:39:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:11.108124
Title: CCTVBench: Contrastive Consistency Traffic VideoQA Benchmark for Multimodal LLMs
Title（参考訳）: CCTVBench:マルチモーダルLCMのコントラストコントラストコントラストトラフィックビデオQAベンチマーク
Authors: Xingcheng Zhou, Hao Guo, Rui Song, Walter Zimmer, Mingyu Liu, André Schamschurko, Hu Cao, Alois Knoll,
Abstract要約: CCTVBenchは、実事故ビデオと世界モデル生成の逆ファクトリアルビデオを基に構築されたコントラストコントラストコントラストトラストトラヒックビデオQAベンチマークである。 CCTVBenchは、各ビデオ質問の4倍に1つの構造化された決定パターンを適用し、実行可能な診断を提供する。 C-TCDは、推論時にコントラスト入力として意味的に排他的なビデオを活用するコントラストデコーディング手法であり、インスタンスレベルのQAとコントラストの整合性を改善する。
参考スコア（独自算出の注目度）: 43.70351207569419
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safety-critical traffic reasoning requires contrastive consistency: models must detect true hazards when an accident occurs, and reliably reject plausible-but-false hypotheses under near-identical counterfactual scenes. We present CCTVBench, a Contrastive Consistency Traffic VideoQA Benchmark built on paired real accident videos and world-model-generated counterfactual counterparts, together with minimally different, mutually exclusive hypothesis questions. CCTVBench enforces a single structured decision pattern over each video question quadruple and provides actionable diagnostics that decompose failures into positive omission, positive swap, negative hallucination, and mutual-exclusivity violation, while separating video versus question consistency. Experiments across open-source and proprietary video LLMs reveal a large and persistent gap between standard per-instance QA metrics and quadruple-level contrastive consistency, with unreliable none-of-the-above rejection as a key bottleneck. Finally, we introduce C-TCD, a contrastive decoding approach leveraging a semantically exclusive counterpart video as the contrast input at inference time, improving both instance-level QA and contrastive consistency.
Abstract（参考訳）: モデルは事故が発生した時に真の危険を検知し、ほぼ同一の対実的な状況下で、確実だが偽の仮説を確実に拒否する必要がある。提案するCCTVBenchは,実事故ビデオと世界モデルが生成する偽物とを組み合わせて構築したコントラストコントラストコントラストトラヒックビデオQAベンチマークであり,最小限に異なる,相互排他的な仮説問題である。 CCTVBenchは、各ビデオ質問四重項に対して単一の構造化された決定パターンを適用し、ビデオと質問の一貫性を分離しながら、障害を正の省略、正のスワップ、負の幻覚、相互排他的違反に分解する実行可能な診断を提供する。オープンソースとプロプライエタリなビデオLLMを使った実験では、標準のインスタンスごとのQAメトリックと4倍レベルのコントラスト一貫性の間に大きな、永続的なギャップが示され、信頼性の低いリジェクションが重要なボトルネックとなっている。最後に,C-TCDを提案する。C-TCDは,意味的に排他的な動画を推論時のコントラスト入力として活用し,インスタンスレベルのQAとコントラストの整合性を改善したコントラストデコーディング手法である。

関連論文リスト

Interpreting Video Representations with Spatio-Temporal Sparse Autoencoders [3.3192479135000426]
本稿では,ビデオ表現におけるSparseencoencoders(SAE)の最初の体系的研究について述べる。標準SAEは解釈可能な単意味の特徴に分解されるが、時間的コヒーレンスを破壊する。 TopKの選択はフレーム間の不安定な特徴割り当てを生成し、自動相関を36%削減する。
論文参考訳（メタデータ） (2026-04-05T01:08:19Z)
INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs [69.11382230669491]
ビデオ証拠(忠実さ)または検証可能な世界知識(事実性)のどちらかに矛盾する結果である幻覚 textscINFACTは、4つのモードでモデルを評価する。 14の代表的なビデオ-LLMの実験では、高ベースモード精度が誘導モードの信頼性に確実に変換されないことが明らかになった。
論文参考訳（メタデータ） (2026-03-12T03:03:16Z)
Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文参考訳（メタデータ） (2025-11-28T18:59:58Z)
CLASH: A Benchmark for Cross-Modal Contradiction Detection [15.134491772506196]
CLASHはマルチモーダル矛盾検出のための新しいベンチマークである。 COCOイメージは、制御対象レベルの矛盾や属性レベルの矛盾を含む矛盾したキャプションと組み合わせられる。
論文参考訳（メタデータ） (2025-11-24T15:09:07Z)
Self-Calibrated Consistency can Fight Back for Adversarial Robustness in Vision-Language Models [31.920092341939593]
自己キャリブレーション・コンシスタンシー(Self-Calibrated Consistency)は、敵の攻撃に対する効果的なテストタイム防衛である。 SCCは精度を維持しながら、CLIPのゼロショットロバスト性を一貫して改善する。これらの知見は、CLIPから逆向きに堅牢なパラダイムを確立する大きな可能性を浮き彫りにした。
論文参考訳（メタデータ） (2025-10-26T18:37:12Z)
Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文参考訳（メタデータ） (2025-06-11T05:33:56Z)
VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning [22.357792064450955]
Chain-of-Thought (CoT)推論は、大規模言語モデル(LLM)と大規模視覚言語モデル(LVLM)の機能を大幅に向上させた。 VCR-Benchは,LVLMのビデオ・チェーン・オブ・ソート・リ推論機能を包括的に評価する新しいベンチマークである。 VCR-Benchは、さまざまなビデオコンテンツと期間にまたがる859の動画と、1,034の高品質な質問応答ペアで構成されている。
論文参考訳（メタデータ） (2025-04-10T17:59:03Z)
Temporal Inconsistency Guidance for Super-resolution Video Quality Assessment [63.811519474030234]
本稿では,フレームの時間的矛盾を定量化するための知覚指向アプローチを提案する。人間の視覚システムに触発され,不整合誘導時間モジュールを開発した。我々の手法は最先端のVQA手法よりも優れています。
論文参考訳（メタデータ） (2024-12-25T15:43:41Z)
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。 GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T08:33:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。