論文の概要: Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection
- arxiv url: http://arxiv.org/abs/2509.03113v1
- Date: Wed, 03 Sep 2025 08:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.455551
- Title: Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection
- Title(参考訳): 勾配に基づく自己回帰によるマルチモーダル幻覚の緩和
- Authors: Shan Wang, Maying Shen, Nadine Chang, Chuong Nguyen, Hongdong Li, Jose M. Alvarez,
- Abstract要約: マルチモーダルな言語モデルにおける幻覚は、テキスト・視覚バイアスと共起バイアスによって引き起こされる。
勾配に基づく自己回帰法を用いて,各トークンの種類の影響を推定する。
我々の手法は、コストのかかる微調整、追加モデル、データ統計など、追加のリソースを必要とせずに動作します。
- 参考スコア(独自算出の注目度): 49.26064449816502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in multimodal large language model are caused by the text-visual bias and the co-occurrence bias. The former reflects an over-reliance on text information in the decision-making process, while the latter arises from the statistical object-pairing patterns abstracted from the training data. Existing mitigation methods heuristically address these biases without understanding the fluctuating bias level across the instances. We first propose estimating the influence of respective token types (visual, prompt, and previous outputs) using a gradient-based self-reflection method. The estimated token influence further enables the detection of object-related visual tokens and their integration into an influence-aware contrastive decoding framework to mitigate both types of biases simultaneously. Our method operates without the need for additional resources, such as costly fine-tuning, extra models, or data statistics. Extensive experiments show it effectively reduces hallucinations, achieving up to a 92% accuracy increase on LLaVA-QA90.
- Abstract(参考訳): マルチモーダルな言語モデルにおける幻覚は、テキスト・視覚バイアスと共起バイアスによって引き起こされる。
前者は意思決定過程におけるテキスト情報の過度な信頼を反映し、後者はトレーニングデータから抽象化された統計的オブジェクトペアリングパターンから生じる。
既存の緩和方法は、インスタンス全体の変動バイアスレベルを理解することなく、これらのバイアスにヒューリスティックに対処する。
まず、勾配に基づく自己回帰法を用いて、各トークンタイプ(視覚、プロンプト、以前の出力)の影響を推定する。
さらに、推定されたトークンの影響により、オブジェクト関連の視覚トークンの検出と、両方のバイアスを同時に緩和するインフルエンサー対応コントラストデコーディングフレームワークへの統合が可能になる。
我々の手法は、コストのかかる微調整、追加モデル、データ統計など、追加のリソースを必要とせずに動作します。
大規模な実験では、LLaVA-QA90の92%の精度向上を達成し、幻覚を効果的に減少させる。
関連論文リスト
- Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。
textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:00:55Z) - Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - Semantic Item Graph Enhancement for Multimodal Recommendation [49.66272783945571]
マルチモーダルレコメンデーションシステムは、商品のマルチモーダル情報を活用することで、パフォーマンスの向上に注目が集まっている。
先行する手法は、しばしばモダリティ固有のアイテム・イテム意味グラフを生のモダリティの特徴から構築する。
これらのセマンティックグラフは、アイテム間の協調信号のモデリングが不十分ななど、セマンティックな欠陥に悩まされている。
論文 参考訳(メタデータ) (2025-08-08T09:20:50Z) - Mitigating Object Hallucinations via Sentence-Level Early Intervention [10.642552315531404]
マルチモーダルな大言語モデル(MLLM)は、多モーダルな理解に革命をもたらしたが、幻覚と闘い続けている。
人間のアノテーションに依存しないフレームワークであるSENTINELを提案する。
文レベルの早期iNtervention through IN- domain preference Learningは、オリジナルのモデルと比較して幻覚を90%以上減らすことができる。
論文 参考訳(メタデータ) (2025-07-16T17:55:43Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models [28.24397677839652]
マルチモーダル大言語モデル(MLLM)におけるオブジェクト幻覚を軽減するために、コントラストデコーディング戦略が広く用いられている。
モデル中層における視覚信号に注意を向けるプラグイン・アンド・プレイ技術であるVisual Amplification Fusion (VAF)を提案する。
VAFは、生成された出力のコヒーレンスと精度を維持しながら、推論速度に影響を与えることなく、様々なMLLMの幻覚を著しく低減する。
論文 参考訳(メタデータ) (2025-03-17T12:30:40Z) - Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。
視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。
既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文 参考訳(メタデータ) (2025-03-08T11:13:05Z) - Dissecting Representation Misalignment in Contrastive Learning via Influence Function [15.28417468377201]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
我々はECIFに基づいて,データ評価,誤修正検出,誤予測トレースバックタスクのための一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Data augmentation and explainability for bias discovery and mitigation
in deep learning [0.0]
この論文は、ディープニューラルネットワークにおけるバイアスの影響を調査し、モデルパフォーマンスへの影響を減らす方法を提案する。
最初の部分は、データやモデルのバイアスやエラーの潜在的な原因を分類し、記述することから始まり、特に機械学習パイプラインのバイアスに焦点を当てている。
次の章では、予測と制御を正当化し、モデルを改善する手段として、説明可能なAIの分類と方法について概説する。
論文 参考訳(メタデータ) (2023-08-18T11:02:27Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。