論文の概要: NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2405.20081v2
- Date: Fri, 31 May 2024 07:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 12:59:52.381812
- Title: NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models
- Title(参考訳): ノイズブースト:マルチモーダル大言語モデルに対する雑音摂動による幻覚の緩和
- Authors: Kai Wu, Boyuan Jiang, Zhengkai Jiang, Qingdong He, Donghao Luo, Shengzhi Wang, Qingwen Liu, Chengjie Wang,
- Abstract要約: NoiseBoostは、人間の評価により、密度のキャプション精度を8.1%向上させる。
NoiseBoostは先駆的にMLLMの半教師付き学習を可能にし、ラベルなしデータのパワーを解放する。
- 参考スコア(独自算出の注目度): 40.07904306608588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) contribute a powerful mechanism to understanding visual information building on large language models. However, MLLMs are notorious for suffering from hallucinations, especially when generating lengthy, detailed descriptions for images. Our analysis reveals that hallucinations stem from the inherent summarization mechanism of large language models, leading to excessive dependence on linguistic tokens while neglecting vision information. In this paper, we propose NoiseBoost, a broadly applicable and simple method for alleviating hallucinations for MLLMs through the integration of noise feature perturbations. Noise perturbation acts as a regularizer, facilitating a balanced distribution of attention weights among visual and linguistic tokens. Despite its simplicity, NoiseBoost consistently enhances the performance of MLLMs across common training strategies, including supervised fine-tuning and reinforcement learning. Further, NoiseBoost pioneerly enables semi-supervised learning for MLLMs, unleashing the power of unlabeled data. Comprehensive experiments demonstrate that NoiseBoost improves dense caption accuracy by 8.1% with human evaluation and achieves comparable results with 50% of the data by mining unlabeled data. Code and models are available at https://kaiwu5.github.io/noiseboost.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、大規模言語モデルに基づく視覚情報構築の強力なメカニズムに寄与する。
しかし、MLLMは幻覚に苦しむことで悪名高い。
分析の結果,幻覚は大きな言語モデル固有の要約機構に起因し,視覚情報を無視しながら言語トークンへの過度な依存につながることが明らかとなった。
本稿では,雑音特徴摂動の統合によりMLLMの幻覚を緩和する,広義かつ簡易な手法であるNossBoostを提案する。
ノイズ摂動は正規化器として機能し、視覚的および言語的トークン間の注意重みのバランスの取れた分布を促進する。
シンプルさにもかかわらず、NossBoostは教師付き微調整や強化学習を含む一般的なトレーニング戦略にわたってMLLMのパフォーマンスを継続的に向上させる。
さらに、NossBoostはMLLMの半教師付き学習を先駆的に可能にし、ラベルなしデータのパワーを解放する。
総合的な実験により、NossBoostは人間の評価によって密度の精度を8.1%向上し、ラベルのないデータをマイニングすることで、データの50%と同等の結果が得られることが示された。
コードとモデルはhttps://kaiwu5.github.io/noiseboost.comで入手できる。
関連論文リスト
- Mitigating Object Hallucination via Data Augmented Contrastive Tuning [52.43197107069751]
MLLM(Multimodal Large Language Models)は、事実的に不正確な情報を幻覚させる傾向がある。
そこで本研究では,幻覚を緩和するための既訓練オフザシェルフMLLMに適用可能なコントラストチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models [27.679307570206937]
ペア化データなしで幻覚を除去する,効率的な粒度の未学習フレームワーク(EFUF)を提案する。
本手法は, 高い計算オーバーヘッドで生成品質を保ちながら, 幻覚を常に低減する。
論文 参考訳(メタデータ) (2024-02-15T08:58:03Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。
本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。
4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T01:57:36Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。