論文の概要: NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2405.20081v1
- Date: Thu, 30 May 2024 14:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 14:08:52.128063
- Title: NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models
- Title(参考訳): ノイズブースト:マルチモーダル大言語モデルに対する雑音摂動による幻覚の緩和
- Authors: Kai Wu, Boyuan Jiang, Zhengkai Jiang, Qingdong He, Donghao Luo, Shengzhi Wang, Qingwen Liu, Chengjie Wang,
- Abstract要約: NoiseBoostは、人間の評価により、密度のキャプション精度を8.1%向上させる。
NoiseBoostは先駆的にMLLMの半教師付き学習を可能にし、ラベルなしデータのパワーを解放する。
- 参考スコア(独自算出の注目度): 40.07904306608588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) contribute a powerful mechanism to understanding visual information building on large language models. However, MLLMs are notorious for suffering from hallucinations, especially when generating lengthy, detailed descriptions for images. Our analysis reveals that hallucinations stem from the inherent summarization mechanism of large language models, leading to excessive dependence on linguistic tokens while neglecting vision information. In this paper, we propose NoiseBoost, a broadly applicable and simple method for alleviating hallucinations for MLLMs through the integration of noise feature perturbations. Noise perturbation acts as a regularizer, facilitating a balanced distribution of attention weights among visual and linguistic tokens. Despite its simplicity, NoiseBoost consistently enhances the performance of MLLMs across common training strategies, including supervised fine-tuning and reinforcement learning. Further, NoiseBoost pioneerly enables semi-supervised learning for MLLMs, unleashing the power of unlabeled data. Comprehensive experiments demonstrate that NoiseBoost improves dense caption accuracy by 8.1% with human evaluation and achieves comparable results with 50% of the data by mining unlabeled data. Code and models are available at https://kaiwu5.github.io/noiseboost.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、大規模言語モデルに基づく視覚情報構築の強力なメカニズムに寄与する。
しかし、MLLMは幻覚に苦しむことで悪名高い。
分析の結果,幻覚は大きな言語モデル固有の要約機構に起因し,視覚情報を無視しながら言語トークンへの過度な依存につながることが明らかとなった。
本稿では,雑音特徴摂動の統合によりMLLMの幻覚を緩和する,広義かつ簡易な手法であるNossBoostを提案する。
ノイズ摂動は正規化器として機能し、視覚的および言語的トークン間の注意重みのバランスの取れた分布を促進する。
シンプルさにもかかわらず、NossBoostは教師付き微調整や強化学習を含む一般的なトレーニング戦略にわたってMLLMのパフォーマンスを継続的に向上させる。
さらに、NossBoostはMLLMの半教師付き学習を先駆的に可能にし、ラベルなしデータのパワーを解放する。
総合的な実験により、NossBoostは人間の評価によって密度の精度を8.1%向上し、ラベルのないデータをマイニングすることで、データの50%と同等の結果が得られることが示された。
コードとモデルはhttps://kaiwu5.github.io/noiseboost.comで入手できる。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models [0.0]
LLM(Large Language Models)は、人間の可読テキストの広範なコーパスに基づいて訓練された強力な計算モデルであり、汎用的な言語理解と生成を可能にする。
これらの成功にもかかわらず、LLMは幻覚と呼ばれる不正確さをしばしば生み出す。
本稿では,LLMにおける幻覚の低減を目的とした,異なるプロンプト戦略とフレームワークの実証評価を行う。
論文 参考訳(メタデータ) (2024-10-25T08:34:53Z) - Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
MLLM(DeCo)の新しい動的補正復号法を提案する。
広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training [9.023648972811458]
RagVLは、知識強化されたリグレードとノイズ注入トレーニングを備えた、新しいフレームワークである。
我々はMLLMに簡単な命令テンプレートを付与し、そのランク付け能力を誘導する。
例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-31T08:43:17Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。