論文の概要: DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting Layer
- arxiv url: http://arxiv.org/abs/2407.15130v2
- Date: Tue, 23 Jul 2024 09:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 12:09:42.226636
- Title: DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting Layer
- Title(参考訳): DOPRA: 特定の重み付け層における過剰蓄積のペナル化と再配置をデコードする
- Authors: Jinfeng Wei, Xiaofeng Zhang,
- Abstract要約: 大規模言語モデル(MLLM)における幻覚を緩和する新しいアプローチであるDOPRAを紹介する。
DOPRAは、復号処理中に12層のような特定の層で重み付けされたオーバーレイペナルティと再分配の戦略を採用している。
全体として、DOPRAはMLLMの出力品質を改善するための重要な一歩である。
- 参考スコア(独自算出の注目度): 6.438650382682887
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we introduce DOPRA, a novel approach designed to mitigate hallucinations in multi-modal large language models (MLLMs). Unlike existing solutions that typically involve costly supplementary training data or the integration of external knowledge sources, DOPRA innovatively addresses hallucinations by decoding specific weighted layer penalties and redistribution, offering an economical and effective solution without additional resources. DOPRA is grounded in unique insights into the intrinsic mechanisms controlling hallucinations within MLLMs, especially the models' tendency to over-rely on a subset of summary tokens in the self-attention matrix, neglecting critical image-related information. This phenomenon is particularly pronounced in certain strata. To counteract this over-reliance, DOPRA employs a strategy of weighted overlay penalties and redistribution in specific layers, such as the 12th layer, during the decoding process. Furthermore, DOPRA includes a retrospective allocation process that re-examines the sequence of generated tokens, allowing the algorithm to reallocate token selection to better align with the actual image content, thereby reducing the incidence of hallucinatory descriptions in auto-generated captions. Overall, DOPRA represents a significant step forward in improving the output quality of MLLMs by systematically reducing hallucinations through targeted adjustments during the decoding process.
- Abstract(参考訳): 本研究では,マルチモーダル大言語モデル(MLLM)における幻覚を緩和する新しいアプローチであるDOPRAを紹介する。
通常、高価な補足的なトレーニングデータや外部知識ソースの統合を含む既存のソリューションとは異なり、DOPRAは特定の重み付けされたレイヤーの罰則と再分配を復号することで幻覚に対処し、追加資源なしで経済的かつ効果的なソリューションを提供する。
DOPRAは、MLLM内の幻覚を制御する固有のメカニズム、特にモデルが自己注意行列内の要約トークンのサブセットに過度に頼り、重要な画像関連情報を無視する傾向について独自の洞察を基礎としている。
この現象は特に特定の層で顕著である。
この過度な信頼性に対抗するため、DOPRAはデコードプロセス中に12層のような特定の層で重み付けされたオーバーレイペナルティと再分配の戦略を採用している。
さらに、DOPRAは、生成されたトークンのシーケンスを再検査し、トークン選択を再配置して実際の画像内容との整合性を向上し、自動生成されたキャプションにおける幻覚的記述の発生を減少させるレトロスペクティブ割り当てプロセスを含む。
全体として、DOPRAは、復号過程における目標調整による幻覚を体系的に低減し、MLLMの出力品質を改善するための重要な一歩である。
関連論文リスト
- Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - Generalizable Non-Line-of-Sight Imaging with Learnable Physical Priors [52.195637608631955]
非視線画像(NLOS)は、その潜在的な応用により注目されている。
既存のNLOS再構成アプローチは、経験的物理的前提に依存して制約される。
本稿では,Learningable Path Compensation(LPC)とAdaptive Phasor Field(APF)の2つの主要な設計を含む,学習に基づく新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-09-21T04:39:45Z) - CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models [51.70129969269271]
CODE(Countering Description Contrastive Decoding)という,新しいコントラストベースのデコーディング手法を提案する。
提案手法は幻覚を著しく低減し,様々なベンチマークや最先端のLMM間の相互整合性を改善する。
論文 参考訳(メタデータ) (2024-06-04T03:04:21Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Dynamic Patch-aware Enrichment Transformer for Occluded Person
Re-Identification [14.219232629274186]
DPEFormer(Dynamic Patch-aware Enrichment Transformer)と呼ばれるエンドツーエンドのソリューションを提案する。
このモデルは,人体情報と隠蔽情報を自動的かつ動的に識別する。
DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを保証するため,本手法では,実効性を有する Occlusion Augmentation (ROA) 戦略も提案する。
論文 参考訳(メタデータ) (2024-02-16T03:53:30Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z) - AMLP:Adaptive Masking Lesion Patches for Self-supervised Medical Image
Segmentation [67.97926983664676]
自己監督型マスク画像モデリングは自然画像に対して有望な結果を示した。
しかし,このような手法を医用画像に直接適用することは依然として困難である。
適応型マスキング病変パッチ(AMLP)の自己管理型医用画像分割フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T13:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。