論文の概要: SmartSight: Mitigating Hallucination in Video-LLMs Without Compromising Video Understanding via Temporal Attention Collapse
- arxiv url: http://arxiv.org/abs/2512.18671v1
- Date: Sun, 21 Dec 2025 10:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.448948
- Title: SmartSight: Mitigating Hallucination in Video-LLMs Without Compromising Video Understanding via Temporal Attention Collapse
- Title(参考訳): SmartSight:ビデオLLMにおける幻覚の緩和 : 時間的注意崩壊によるビデオ理解の妥協なしに
- Authors: Yiming Sun, Mi Zhang, Feifei Li, Geng Hong, Min Yang,
- Abstract要約: 本稿では,ビデオ大言語モデルにおける幻覚問題に対処するための先駆的なステップであるSmartSightを提案する。
SmartSightは複数の候補応答を生成して、標準のgreedyデコードによってしばしば隠蔽される低調波出力を明らかにする。
実験の結果、SmartSightはQwen2.5-VL-7Bの幻覚をVRIPT-HALで10.59%減少させ、同時にビデオ理解と推論を強化し、ビデオMMMUのパフォーマンスを最大8.86%向上させた。
- 参考スコア(独自算出の注目度): 22.663181163109176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite Video Large Language Models having rapidly advanced in recent years, perceptual hallucinations pose a substantial safety risk, which severely restricts their real-world applicability. While several methods for hallucination mitigation have been proposed, they often compromise the model's capacity for video understanding and reasoning. In this work, we propose SmartSight, a pioneering step to address this issue in a training-free manner by leveraging the model's own introspective capabilities. Specifically, SmartSight generates multiple candidate responses to uncover low-hallucinated outputs that are often obscured by standard greedy decoding. It assesses the hallucination of each response using the Temporal Attention Collapse score, which measures whether the model over-focuses on trivial temporal regions of the input video when generating the response. To improve efficiency, SmartSight identifies the Visual Attention Vanishing point, enabling more accurate hallucination estimation and early termination of hallucinated responses, leading to a substantial reduction in decoding cost. Experiments show that SmartSight substantially lowers hallucinations for Qwen2.5-VL-7B by 10.59% on VRIPT-HAL, while simultaneously enhancing video understanding and reasoning, boosting performance on VideoMMMU by up to 8.86%. These results highlight SmartSight's effectiveness in improving the reliability of open-source Video-LLMs.
- Abstract(参考訳): 近年、ビデオ大言語モデルは急速に進歩しているが、知覚の幻覚は重大な安全性のリスクをもたらし、現実の応用性を著しく制限している。
幻覚緩和のためのいくつかの方法が提案されているが、ビデオ理解と推論のためのモデルの能力を損なうことがしばしばある。
本稿では,モデルの内省的能力を活用することにより,この問題を解決するための先駆的なステップであるSmartSightを提案する。
具体的には、SmartSightは複数の候補応答を生成して、標準のgreedyデコーディングによってしばしば隠蔽される低調な出力を明らかにする。
応答を生成する際に、入力ビデオの自明な時間領域に過度に焦点をあてるかどうかを測定する時間的注意崩壊スコアを用いて、各応答の幻覚を評価する。
効率を改善するために、SmartSightは視覚的注意消滅点を特定し、より正確な幻覚推定と幻覚応答の早期終了を可能にし、デコードコストを大幅に削減する。
実験の結果、SmartSightはQwen2.5-VL-7Bの幻覚をVRIPT-HALで10.59%減少させ、同時にビデオ理解と推論を強化し、ビデオMMMUのパフォーマンスを最大8.86%向上させた。
これらの結果は,オープンソースのビデオLLMの信頼性向上におけるSmartSightの有効性を浮き彫りにした。
関連論文リスト
- SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding [30.820850789099932]
本稿では,各出力トークンに対する時間的・空間的忠実度を適応的に向上する学習自由度手法を提案する。
SEASONは3つの幻覚検査ベンチマークにおいて、既存のトレーニングなし幻覚緩和アプローチよりも優れています。
論文 参考訳(メタデータ) (2025-12-04T10:17:20Z) - ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding [61.526407756322264]
ELV-Hallucは、ビデオの幻覚に関する最初のベンチマークである。
モデルは、急速に変化するセマンティクスにおいてSAHの傾向が強くなる。
また,ELV-Halluc と Video-MME の改善も達成した。
論文 参考訳(メタデータ) (2025-08-29T10:25:03Z) - Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering [83.63437999696954]
大規模言語モデル(MLLM)における幻覚は、ビデオ領域において重要かつ未適応な課題として持続する。
本稿では,幻覚に敏感なモジュールを適応的に識別し,操作するビデオLLMのための時間認識型アクティベーションエンジニアリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:12:06Z) - Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation [49.885797244626694]
大型マルチモーダルモデル(LMM)の幻覚は、正しいように見えるが実際には正しくない応答を提供する。
本稿では,ビデオモダリティにおけるLMMの幻覚問題について検討することを目的としている。
論文 参考訳(メタデータ) (2025-03-25T13:12:17Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [42.66453293963568]
MLLM(Multimodal Large Language Models)はビデオ理解の分野で大きな進歩を遂げている。
本稿では,イベントに対するビデオLLMの幻覚を評価する新しいベンチマークであるEventHallusionを提案する。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。