Fugu-MT 論文翻訳(概要): DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting Layer

論文の概要: DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting Layer

arxiv url: http://arxiv.org/abs/2407.15130v2
Date: Tue, 23 Jul 2024 09:30:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 12:09:42.226636
Title: DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting Layer
Title（参考訳）: DOPRA: 特定の重み付け層における過剰蓄積のペナル化と再配置をデコードする
Authors: Jinfeng Wei, Xiaofeng Zhang,
Abstract要約: 大規模言語モデル(MLLM)における幻覚を緩和する新しいアプローチであるDOPRAを紹介する。 DOPRAは、復号処理中に12層のような特定の層で重み付けされたオーバーレイペナルティと再分配の戦略を採用している。全体として、DOPRAはMLLMの出力品質を改善するための重要な一歩である。
参考スコア（独自算出の注目度）: 6.438650382682887
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this work, we introduce DOPRA, a novel approach designed to mitigate hallucinations in multi-modal large language models (MLLMs). Unlike existing solutions that typically involve costly supplementary training data or the integration of external knowledge sources, DOPRA innovatively addresses hallucinations by decoding specific weighted layer penalties and redistribution, offering an economical and effective solution without additional resources. DOPRA is grounded in unique insights into the intrinsic mechanisms controlling hallucinations within MLLMs, especially the models' tendency to over-rely on a subset of summary tokens in the self-attention matrix, neglecting critical image-related information. This phenomenon is particularly pronounced in certain strata. To counteract this over-reliance, DOPRA employs a strategy of weighted overlay penalties and redistribution in specific layers, such as the 12th layer, during the decoding process. Furthermore, DOPRA includes a retrospective allocation process that re-examines the sequence of generated tokens, allowing the algorithm to reallocate token selection to better align with the actual image content, thereby reducing the incidence of hallucinatory descriptions in auto-generated captions. Overall, DOPRA represents a significant step forward in improving the output quality of MLLMs by systematically reducing hallucinations through targeted adjustments during the decoding process.
Abstract（参考訳）: 本研究では,マルチモーダル大言語モデル(MLLM)における幻覚を緩和する新しいアプローチであるDOPRAを紹介する。通常、高価な補足的なトレーニングデータや外部知識ソースの統合を含む既存のソリューションとは異なり、DOPRAは特定の重み付けされたレイヤーの罰則と再分配を復号することで幻覚に対処し、追加資源なしで経済的かつ効果的なソリューションを提供する。 DOPRAは、MLLM内の幻覚を制御する固有のメカニズム、特にモデルが自己注意行列内の要約トークンのサブセットに過度に頼り、重要な画像関連情報を無視する傾向について独自の洞察を基礎としている。この現象は特に特定の層で顕著である。この過度な信頼性に対抗するため、DOPRAはデコードプロセス中に12層のような特定の層で重み付けされたオーバーレイペナルティと再分配の戦略を採用している。さらに、DOPRAは、生成されたトークンのシーケンスを再検査し、トークン選択を再配置して実際の画像内容との整合性を向上し、自動生成されたキャプションにおける幻覚的記述の発生を減少させるレトロスペクティブ割り当てプロセスを含む。全体として、DOPRAは、復号過程における目標調整による幻覚を体系的に低減し、MLLMの出力品質を改善するための重要な一歩である。

関連論文リスト

Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [42.871396640891334]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文参考訳（メタデータ） (2025-05-26T08:36:10Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
InterLCM: Low-Quality Images as Intermediate States of Latent Consistency Models for Effective Blind Face Restoration [106.70903819362402]
拡散前駆体は、低画質画像の復元のために、復元データセットの微細調整拡散モデル(DM)によってブラインドフェイス復元(BFR)に使用されている。我々は,その優れたセマンティック一貫性と効率のために潜在一貫性モデル(LCM)を活用するために,InterLCMを提案する。 InterLCMは、合成データセットと実世界のデータセットの両方において既存のアプローチより優れており、推論速度も高速である。
論文参考訳（メタデータ） (2025-02-04T10:51:20Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。 ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文参考訳（メタデータ） (2024-10-21T07:19:19Z)
Generalizable Non-Line-of-Sight Imaging with Learnable Physical Priors [52.195637608631955]
非視線画像(NLOS)は、その潜在的な応用により注目されている。既存のNLOS再構成アプローチは、経験的物理的前提に依存して制約される。本稿では,Learningable Path Compensation(LPC)とAdaptive Phasor Field(APF)の2つの主要な設計を含む,学習に基づく新しいソリューションを提案する。
論文参考訳（メタデータ） (2024-09-21T04:39:45Z)
CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models [51.70129969269271]
CODE(Countering Description Contrastive Decoding)という,新しいコントラストベースのデコーディング手法を提案する。提案手法は幻覚を著しく低減し,様々なベンチマークや最先端のLMM間の相互整合性を改善する。
論文参考訳（メタデータ） (2024-06-04T03:04:21Z)
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文参考訳（メタデータ） (2024-03-27T16:04:47Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Dynamic Patch-aware Enrichment Transformer for Occluded Person Re-Identification [14.219232629274186]
DPEFormer(Dynamic Patch-aware Enrichment Transformer)と呼ばれるエンドツーエンドのソリューションを提案する。このモデルは,人体情報と隠蔽情報を自動的かつ動的に識別する。 DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを保証するため,本手法では,実効性を有する Occlusion Augmentation (ROA) 戦略も提案する。
論文参考訳（メタデータ） (2024-02-16T03:53:30Z)
ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。様々なビット幅にわたって優れた微調整結果が得られる。
論文参考訳（メタデータ） (2024-02-07T09:36:54Z)
OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文参考訳（メタデータ） (2023-11-29T18:57:07Z)
AMLP:Adaptive Masking Lesion Patches for Self-supervised Medical Image Segmentation [67.97926983664676]
自己監督型マスク画像モデリングは自然画像に対して有望な結果を示した。しかし,このような手法を医用画像に直接適用することは依然として困難である。適応型マスキング病変パッチ(AMLP)の自己管理型医用画像分割フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-08T13:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。