論文の概要: ResNetVLLM-2: Addressing ResNetVLLM's Multi-Modal Hallucinations
- arxiv url: http://arxiv.org/abs/2504.14429v1
- Date: Sun, 20 Apr 2025 00:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:40:11.225704
- Title: ResNetVLLM-2: Addressing ResNetVLLM's Multi-Modal Hallucinations
- Title(参考訳): ResNetVLLM-2:ResNetVLLMのマルチモーダル幻覚に対処する
- Authors: Ahmad Khalil, Mahmoud Khalil, Alioune Ngom,
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理 (NLP) のタスクを変換しているが、幻覚に悩まされ、真に正しくないコンテンツを生成する。
この問題は Video-Language Models (VideoLLMs) にも及んでいる。
本稿では,(1) 修正されたLynxモデルを用いて生成したキャプションと地味なビデオ参照のセマンティックアライメントを評価する信頼度検出戦略,(2) 推論中に動的に構築されたアドホックな知識ベースを持つRetrieval-Augmented Generation (RAG) を用いた幻覚緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have transformed natural language processing (NLP) tasks, but they suffer from hallucination, generating plausible yet factually incorrect content. This issue extends to Video-Language Models (VideoLLMs), where textual descriptions may inaccurately represent visual content, resulting in multi-modal hallucinations. In this paper, we address hallucination in ResNetVLLM, a video-language model combining ResNet visual encoders with LLMs. We introduce a two-step protocol: (1) a faithfulness detection strategy that uses a modified Lynx model to assess semantic alignment between generated captions and ground-truth video references, and (2) a hallucination mitigation strategy using Retrieval-Augmented Generation (RAG) with an ad-hoc knowledge base dynamically constructed during inference. Our enhanced model, ResNetVLLM-2, reduces multi-modal hallucinations by cross-verifying generated content against external knowledge, improving factual consistency. Evaluation on the ActivityNet-QA benchmark demonstrates a substantial accuracy increase from 54.8% to 65.3%, highlighting the effectiveness of our hallucination detection and mitigation strategies in enhancing video-language model reliability.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理 (NLP) のタスクを変換しているが、幻覚に悩まされ、真に正しくないコンテンツを生成する。
この問題は Video-Language Models (VideoLLMs) にも及んでいる。
本稿では、ResNetビジュアルエンコーダとLLMを組み合わせたビデオ言語モデルであるResNetVLLMの幻覚について述べる。
本稿では,(1) 修正されたLynxモデルを用いて生成したキャプションと地味なビデオ参照のセマンティックアライメントを評価する信頼度検出戦略,(2) 推論中に動的に構築されたアドホックな知識ベースを持つRetrieval-Augmented Generation (RAG) を用いた幻覚緩和戦略を提案する。
我々の拡張モデルであるResNetVLLM-2は、外部知識に対して生成されたコンテンツを相互に検証することで、マルチモーダル幻覚を低減し、事実整合性を向上させる。
ActivityNet-QAベンチマークの評価では54.8%から65.3%にかなり精度が向上し、ビデオ言語モデルの信頼性を高める上での幻覚検出と緩和戦略の有効性を強調した。
関連論文リスト
- Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Is Your Text-to-Image Model Robust to Caption Noise? [38.19377765665836]
テキスト・トゥ・イメージ(T2I)生成では、画像再カプセル化に視覚言語モデル(VLM)を用いることが一般的である。
VLMは幻覚を示すことで知られており、視覚的現実から逸脱する記述的内容を生成するが、そのような字幕幻覚がT2I世代のパフォーマンスに与える影響は未解明のままである。
論文 参考訳(メタデータ) (2024-12-27T08:53:37Z) - Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models [11.75855265467876]
トレーニング不要なコントラスト復号法であるConVisを導入する。
一般的な5つのベンチマーク実験により、ConVisは様々なMLLMの幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2024-08-25T18:02:36Z) - Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD) [13.430637580980164]
Large Vision-Language Models (LVLM) は、画像入力とテキスト入力の両方の処理を容易にし、AI機能を拡張したLarge Language Models (LLM)の拡張である。
本研究では,LVLMの出力をLarge Language Models分布の信頼性レベルに基づいて調整するLanguage Contrastive Decoding (LCD)アルゴリズムを提案する。
本手法は,複雑な後処理や再学習を必要とせず,LVLMを効果的に改善し,異なるモデルに容易に適用できる。
論文 参考訳(メタデータ) (2024-08-06T08:10:34Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。