Fugu-MT 論文翻訳(概要): OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

論文の概要: OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

arxiv url: http://arxiv.org/abs/2311.17911v3
Date: Tue, 12 Mar 2024 05:59:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 01:15:50.008155
Title: OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation
Title（参考訳）: OPERA:マルチモーダル大言語モデルにおける過度な罰とふりかえりによる幻覚の緩和
Authors: Qidong Huang, Xiaoyi Dong, Pan Zhang, Bin Wang, Conghui He, Jiaqi Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
Abstract要約: OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
参考スコア（独自算出の注目度）: 124.9008419182485
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hallucination, posed as a pervasive challenge of multi-modal large language models (MLLMs), has significantly impeded their real-world usage that demands precise judgment. Existing methods mitigate this issue with either training with specific designed data or inferencing with external knowledge from other sources, incurring inevitable additional costs. In this paper, we present OPERA, a novel MLLM decoding method grounded in an Over-trust Penalty and a Retrospection-Allocation strategy, serving as a nearly free lunch to alleviate the hallucination issue without additional data, knowledge, or training. Our approach begins with an interesting observation that, most hallucinations are closely tied to the knowledge aggregation patterns manifested in the self-attention matrix, i.e., MLLMs tend to generate new tokens by focusing on a few summary tokens, but not all the previous tokens. Such partial over-trust inclination results in the neglecting of image tokens and describes the image content with hallucination. Based on the observation, OPERA introduces a penalty term on the model logits during the beam-search decoding to mitigate the over-trust issue, along with a rollback strategy that retrospects the presence of summary tokens in the previously generated tokens, and re-allocate the token selection if necessary. With extensive experiments, OPERA shows significant hallucination-mitigating performance on different MLLMs and metrics, proving its effectiveness and generality. Our code is available at: https://github.com/shikiw/OPERA.
Abstract（参考訳）: マルチモーダルな大規模言語モデル(MLLM)の広汎な挑戦として提起された幻覚は、正確な判断を要求する現実世界の使用を著しく妨げている。既存の方法は、特定の設計データによるトレーニングや、他のソースからの外部知識による推論によってこの問題を軽減する。本稿では,過剰な信頼感と遡及的配置戦略を基礎とした新たなmllm復号法であるoperaを,追加データや知識,訓練を伴わずに幻覚問題を緩和するための,ほぼ無償のランチとして提供する。我々のアプローチは、ほとんどの幻覚は自己注意行列に現れる知識集約パターンと密接に結びついている、すなわちMLLMはいくつかの要約トークンに焦点をあてて新しいトークンを生成する傾向がある、という興味深い観察から始まります。このような部分的な過剰な傾きは、画像トークンを無視し、幻覚を伴う画像内容を記述する。この観察に基づいてoperaは、ビームサーチデコード中にモデルロジットにペナルティ項を導入し、過剰な信頼の問題を軽減するとともに、事前に生成されたトークンにおける要約トークンの存在を振り返り、必要に応じてトークン選択を再配置するロールバック戦略を導入する。大規模な実験により、OPERAは様々なMLLMとメトリクスに対して幻覚軽減性能を示し、その効果と汎用性を証明した。私たちのコードは、https://github.com/shikiw/OPERA.comで利用可能です。

関連論文リスト

Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding [33.33247964758369]
我々は,トークンインタラクションプロセスから直接適切なコンテキスト情報を抽出できると主張している。復号化戦略における因果推論に着想を得て、因果マスクを活用してマルチモーダルトークン間の情報伝達を確立することを提案する。 FarSightは汎用的なプラグ・アンド・プレイ・デコード方式で,外部トークンからの注意干渉を低減する。
論文参考訳（メタデータ） (2025-05-22T13:19:57Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。 textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文参考訳（メタデータ） (2025-01-21T15:22:31Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。 RoPEは、広く採用されている位置依存モデリング設計である。簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文参考訳（メタデータ） (2024-10-21T11:54:53Z)
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。 MLLM(DeCo)の新しい動的補正復号法を提案する。広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文参考訳（メタデータ） (2024-10-15T16:57:44Z)
Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models [25.386858937068478]
MLLM(Multimodal Large Language Models)は幻覚、特に視覚入力に存在しないコンテンツを断定的に生成する。本稿では,外部知識検索や微調整を必要とせず,新たな幻覚緩和パラダイムであるメモリスペース・ビジュアル・リトラクション(MemVR)を紹介する。特に、モデルが不確かである場合や、質問関連視覚記憶に注意を払っている場合、フィードフォワードネットワーク(FFN)を介してMLLMにリジェクションされる補助的証拠として視覚刺激をキーバリューメモリとして扱う。
論文参考訳（メタデータ） (2024-10-04T16:30:54Z)
Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning [24.270713960060142]
LVLM(Large Vision-Language Models)は、マルチモーダルコンテキスト理解における印象的な機能を示す。彼らはまだ、画像の内容と矛盾する出力を生成することを参照して幻覚に悩まされている。 LVLMの生来の能力を最大限活用して幻覚を減らすことを目的とした、トレーニングフリーフレームワークである textbfMVP を提案する。
論文参考訳（メタデータ） (2024-08-30T09:40:10Z)
Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models [30.26685485474035]
LVLM(Large Vision-Language Models)は近年急速に進歩している。幻覚問題として知られる問題は、重大なボトルネックとして浮上している。自己検査復号法(Self-Introspective Decoding, SID)を提案する。
論文参考訳（メタデータ） (2024-08-04T13:50:17Z)
Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。 Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文参考訳（メタデータ） (2024-08-02T16:07:15Z)
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。統計的解析から,これまでの研究で注目されていたLVLMの幻覚の要因を明らかにした。提案手法の有効性を示す4種類のLVLMについて検討した。
論文参考訳（メタデータ） (2024-05-29T15:28:42Z)
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文参考訳（メタデータ） (2023-12-12T04:05:15Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。