論文の概要: OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation
- arxiv url: http://arxiv.org/abs/2311.17911v3
- Date: Tue, 12 Mar 2024 05:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:15:50.008155
- Title: OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation
- Title(参考訳): OPERA:マルチモーダル大言語モデルにおける過度な罰とふりかえりによる幻覚の緩和
- Authors: Qidong Huang, Xiaoyi Dong, Pan Zhang, Bin Wang, Conghui He, Jiaqi
Wang, Dahua Lin, Weiming Zhang, Nenghai Yu
- Abstract要約: OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
- 参考スコア(独自算出の注目度): 124.9008419182485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination, posed as a pervasive challenge of multi-modal large language
models (MLLMs), has significantly impeded their real-world usage that demands
precise judgment. Existing methods mitigate this issue with either training
with specific designed data or inferencing with external knowledge from other
sources, incurring inevitable additional costs. In this paper, we present
OPERA, a novel MLLM decoding method grounded in an Over-trust Penalty and a
Retrospection-Allocation strategy, serving as a nearly free lunch to alleviate
the hallucination issue without additional data, knowledge, or training. Our
approach begins with an interesting observation that, most hallucinations are
closely tied to the knowledge aggregation patterns manifested in the
self-attention matrix, i.e., MLLMs tend to generate new tokens by focusing on a
few summary tokens, but not all the previous tokens. Such partial over-trust
inclination results in the neglecting of image tokens and describes the image
content with hallucination. Based on the observation, OPERA introduces a
penalty term on the model logits during the beam-search decoding to mitigate
the over-trust issue, along with a rollback strategy that retrospects the
presence of summary tokens in the previously generated tokens, and re-allocate
the token selection if necessary. With extensive experiments, OPERA shows
significant hallucination-mitigating performance on different MLLMs and
metrics, proving its effectiveness and generality. Our code is available at:
https://github.com/shikiw/OPERA.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)の広汎な挑戦として提起された幻覚は、正確な判断を要求する現実世界の使用を著しく妨げている。
既存の方法は、特定の設計データによるトレーニングや、他のソースからの外部知識による推論によってこの問題を軽減する。
本稿では,過剰な信頼感と遡及的配置戦略を基礎とした新たなmllm復号法であるoperaを,追加データや知識,訓練を伴わずに幻覚問題を緩和するための,ほぼ無償のランチとして提供する。
我々のアプローチは、ほとんどの幻覚は自己注意行列に現れる知識集約パターンと密接に結びついている、すなわちMLLMはいくつかの要約トークンに焦点をあてて新しいトークンを生成する傾向がある、という興味深い観察から始まります。
このような部分的な過剰な傾きは、画像トークンを無視し、幻覚を伴う画像内容を記述する。
この観察に基づいてoperaは、ビームサーチデコード中にモデルロジットにペナルティ項を導入し、過剰な信頼の問題を軽減するとともに、事前に生成されたトークンにおける要約トークンの存在を振り返り、必要に応じてトークン選択を再配置するロールバック戦略を導入する。
大規模な実験により、OPERAは様々なMLLMとメトリクスに対して幻覚軽減性能を示し、その効果と汎用性を証明した。
私たちのコードは、https://github.com/shikiw/OPERA.comで利用可能です。
関連論文リスト
- Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
MLLM(DeCo)の新しい動的補正復号法を提案する。
広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models [25.386858937068478]
MLLM(Multimodal Large Language Models)は幻覚、特に視覚入力に存在しないコンテンツを断定的に生成する。
本稿では,外部知識検索や微調整を必要とせず,新たな幻覚緩和パラダイムであるメモリスペース・ビジュアル・リトラクション(MemVR)を紹介する。
特に、モデルが不確かである場合や、質問関連視覚記憶に注意を払っている場合、フィードフォワードネットワーク(FFN)を介してMLLMにリジェクションされる補助的証拠として視覚刺激をキーバリューメモリとして扱う。
論文 参考訳(メタデータ) (2024-10-04T16:30:54Z) - Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning [24.270713960060142]
LVLM(Large Vision-Language Models)は、マルチモーダルコンテキスト理解における印象的な機能を示す。
彼らはまだ、画像の内容と矛盾する出力を生成することを参照して幻覚に悩まされている。
LVLMの生来の能力を最大限活用して幻覚を減らすことを目的とした、トレーニングフリーフレームワークである textbfMVP を提案する。
論文 参考訳(メタデータ) (2024-08-30T09:40:10Z) - Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models [30.26685485474035]
LVLM(Large Vision-Language Models)は近年急速に進歩している。
幻覚問題として知られる問題は、重大なボトルネックとして浮上している。
自己検査復号法(Self-Introspective Decoding, SID)を提案する。
論文 参考訳(メタデータ) (2024-08-04T13:50:17Z) - Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,これまでの研究で注目されていたLVLMの幻覚の要因を明らかにした。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文 参考訳(メタデータ) (2024-05-29T15:28:42Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。