論文の概要: Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering
- arxiv url: http://arxiv.org/abs/2505.12826v1
- Date: Mon, 19 May 2025 08:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.478447
- Title: Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering
- Title(参考訳): 時間認識活性化工学によるビデオLLMの幻覚の緩和
- Authors: Jianfeng Cai, Wengang Zhou, Zongmeng Zhang, Jiale Hong, Nianji Zhan, Houqiang Li,
- Abstract要約: 大規模言語モデル(MLLM)における幻覚は、ビデオ領域において重要かつ未適応な課題として持続する。
本稿では,幻覚に敏感なモジュールを適応的に識別し,操作するビデオLLMのための時間認識型アクティベーションエンジニアリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 83.63437999696954
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable progress in video understanding.However, hallucination, where the model generates plausible yet incorrect outputs, persists as a significant and under-addressed challenge in the video domain. Among existing solutions, activation engineering has proven successful in mitigating hallucinations in LLMs and ImageLLMs, yet its applicability to VideoLLMs remains largely unexplored. In this work, we are the first to systematically investigate the effectiveness and underlying mechanisms of activation engineering for mitigating hallucinations in VideoLLMs. We initially conduct an investigation of the key factors affecting the performance of activation engineering and find that a model's sensitivity to hallucination depends on $\textbf{temporal variation}$ rather than task type. Moreover, selecting appropriate internal modules and dataset for activation engineering is critical for reducing hallucination. Guided by these findings, we propose a temporal-aware activation engineering framework for VideoLLMs, which adaptively identifies and manipulates hallucination-sensitive modules based on the temporal variation characteristic, substantially mitigating hallucinations without additional LLM fine-tuning. Experiments across multiple models and benchmarks demonstrate that our method markedly reduces hallucination in VideoLLMs, thereby validating the robustness of our findings.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は,映像理解において顕著な進歩を遂げている。しかしながら,そのモデルが可塑性で誤りな出力を生成する幻覚は,ビデオ領域において重要かつ過度な課題として持続している。
既存のソリューションの中で、アクティベーションエンジニアリングはLLMやImageLLMの幻覚を緩和することに成功している。
本研究は,ビデオLLMにおける幻覚を緩和するためのアクティベーションエンジニアリングの有効性とメカニズムを系統的に研究する最初の試みである。
まず、アクティベーションエンジニアリングのパフォーマンスに影響を及ぼす重要な要因を調査し、幻覚に対するモデルの感度がタスクタイプよりも$\textbf{temporal variation}$に依存することを発見した。
さらに、幻覚の軽減には、適切な内部モジュールとアクティベーションエンジニアリングのためのデータセットを選択することが重要である。
これらの知見に導かれて, 時間的変動特性に基づいて幻覚感受性モジュールを適応的に識別し, 操作するビデオLLMの時間的アクティベーションエンジニアリングフレームワークを提案する。
複数のモデルおよびベンチマーク実験により,本手法はビデオLLMの幻覚を著しく低減し,その結果のロバスト性を検証した。
関連論文リスト
- Robust Hallucination Detection in LLMs via Adaptive Token Selection [25.21763722332831]
大きな言語モデル(LLM)の幻覚は、より広範なデプロイメントを妨げる重要な安全性上の懸念を引き起こす。
本研究では,適応的選択とクリティカルトークンの学習を通じて,幻覚の堅牢な検出を可能にする新しいアプローチであるHaMIを提案する。
本研究では,ハロシン化検出タスクの革新的な定式化により,このロバスト性を実現する。
論文 参考訳(メタデータ) (2025-04-10T15:39:10Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection [10.54378596443678]
大規模言語モデル(LLM)は高い能力を持つが、リアルタイムアプリケーションではレイテンシの問題に直面している。
本研究では,実効的なプロンプト技術の導入により,実時間で解釈可能な幻覚検出を最適化する。
論文 参考訳(メタデータ) (2024-08-22T22:13:13Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。