Fugu-MT 論文翻訳(概要): NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models

論文の概要: NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2405.20081v2
Date: Fri, 31 May 2024 07:40:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 12:59:52.381812
Title: NoiseBoost: Alleviating Hallucination with Noise Perturbation for Multimodal Large Language Models
Title（参考訳）: ノイズブースト:マルチモーダル大言語モデルに対する雑音摂動による幻覚の緩和
Authors: Kai Wu, Boyuan Jiang, Zhengkai Jiang, Qingdong He, Donghao Luo, Shengzhi Wang, Qingwen Liu, Chengjie Wang,
Abstract要約: NoiseBoostは、人間の評価により、密度のキャプション精度を8.1%向上させる。 NoiseBoostは先駆的にMLLMの半教師付き学習を可能にし、ラベルなしデータのパワーを解放する。
参考スコア（独自算出の注目度）: 40.07904306608588
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) contribute a powerful mechanism to understanding visual information building on large language models. However, MLLMs are notorious for suffering from hallucinations, especially when generating lengthy, detailed descriptions for images. Our analysis reveals that hallucinations stem from the inherent summarization mechanism of large language models, leading to excessive dependence on linguistic tokens while neglecting vision information. In this paper, we propose NoiseBoost, a broadly applicable and simple method for alleviating hallucinations for MLLMs through the integration of noise feature perturbations. Noise perturbation acts as a regularizer, facilitating a balanced distribution of attention weights among visual and linguistic tokens. Despite its simplicity, NoiseBoost consistently enhances the performance of MLLMs across common training strategies, including supervised fine-tuning and reinforcement learning. Further, NoiseBoost pioneerly enables semi-supervised learning for MLLMs, unleashing the power of unlabeled data. Comprehensive experiments demonstrate that NoiseBoost improves dense caption accuracy by 8.1% with human evaluation and achieves comparable results with 50% of the data by mining unlabeled data. Code and models are available at https://kaiwu5.github.io/noiseboost.
Abstract（参考訳）: マルチモーダルな大規模言語モデル(MLLM)は、大規模言語モデルに基づく視覚情報構築の強力なメカニズムに寄与する。しかし、MLLMは幻覚に苦しむことで悪名高い。分析の結果,幻覚は大きな言語モデル固有の要約機構に起因し,視覚情報を無視しながら言語トークンへの過度な依存につながることが明らかとなった。本稿では,雑音特徴摂動の統合によりMLLMの幻覚を緩和する,広義かつ簡易な手法であるNossBoostを提案する。ノイズ摂動は正規化器として機能し、視覚的および言語的トークン間の注意重みのバランスの取れた分布を促進する。シンプルさにもかかわらず、NossBoostは教師付き微調整や強化学習を含む一般的なトレーニング戦略にわたってMLLMのパフォーマンスを継続的に向上させる。さらに、NossBoostはMLLMの半教師付き学習を先駆的に可能にし、ラベルなしデータのパワーを解放する。総合的な実験により、NossBoostは人間の評価によって密度の精度を8.1%向上し、ラベルのないデータをマイニングすることで、データの50%と同等の結果が得られることが示された。コードとモデルはhttps://kaiwu5.github.io/noiseboost.comで入手できる。

関連論文リスト

PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文参考訳（メタデータ） (2025-10-22T02:41:07Z)
Beyond ROUGE: N-Gram Subspace Features for LLM Hallucination Detection [5.0106565473767075]
大規模言語モデル(LLM)は、自然言語を含む様々なタスクにおいて有効性を示す。幻覚の根本的な問題は依然としてこれらのモデルに悩まされており、一貫性のある真正な情報を生成する際の信頼性を制限している。 LLM生成テキストからN-Gram周波数テンソルを構成するROUGEにインスパイアされた新しい手法を提案する。このテンソルは共起パターンを符号化することでよりリッチな意味構造を捉え、事実と幻覚的コンテンツをよりよく区別することができる。
論文参考訳（メタデータ） (2025-09-03T18:52:24Z)
Mitigating Object Hallucination via Robust Local Perception Search [11.570368427723961]
局所知覚探索(Local Perception Search, LPS)は、単純かつ訓練のない推論における復号法であり、幻覚を効果的に抑制する。 LPSはベースラインに比べて幻覚の発生率を著しく低下させ,特に騒音条件下では異常な性能を示した。
論文参考訳（メタデータ） (2025-06-07T09:27:26Z)
Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。 LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文参考訳（メタデータ） (2025-05-20T15:44:01Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。 HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。 PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文参考訳（メタデータ） (2025-03-09T07:07:03Z)
Mirage in the Eyes: Hallucination Attack on Multi-modal Large Language Models with Only Attention Sink [22.781487074263957]
MLLM(Multi-modal Large Language Models)は、視覚言語アプリケーションに革命をもたらしている。しかし、これらのモデルは視覚的内容と一致しない不正確なオブジェクト、属性、関係を生成するという幻覚の問題に悩まされることが多い。本稿では,注目シンク行動を利用したMLLMに対する新たな幻覚攻撃を提案する。
論文参考訳（メタデータ） (2025-01-25T16:36:00Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models [0.0]
LLM(Large Language Models)は、人間の可読テキストの広範なコーパスに基づいて訓練された強力な計算モデルであり、汎用的な言語理解と生成を可能にする。これらの成功にもかかわらず、LLMは幻覚と呼ばれる不正確さをしばしば生み出す。本稿では,LLMにおける幻覚の低減を目的とした,異なるプロンプト戦略とフレームワークの実証評価を行う。
論文参考訳（メタデータ） (2024-10-25T08:34:53Z)
Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL) 本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文参考訳（メタデータ） (2024-10-16T00:15:40Z)
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。 MLLM(DeCo)の新しい動的補正復号法を提案する。広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文参考訳（メタデータ） (2024-10-15T16:57:44Z)
MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training [9.023648972811458]
RagVLは、知識強化されたリグレードとノイズ注入トレーニングを備えた、新しいフレームワークである。我々はMLLMに簡単な命令テンプレートを付与し、そのランク付け能力を誘導する。例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
論文参考訳（メタデータ） (2024-07-31T08:43:17Z)
Large Language Models are Efficient Learners of Noise-Robust Speech Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文参考訳（メタデータ） (2024-01-19T01:29:27Z)
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文参考訳（メタデータ） (2023-12-12T04:05:15Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。