Fugu-MT 論文翻訳(概要): Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

論文の概要: Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

arxiv url: http://arxiv.org/abs/2509.03113v1
Date: Wed, 03 Sep 2025 08:13:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-04 21:40:46.455551
Title: Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection
Title（参考訳）: 勾配に基づく自己回帰によるマルチモーダル幻覚の緩和
Authors: Shan Wang, Maying Shen, Nadine Chang, Chuong Nguyen, Hongdong Li, Jose M. Alvarez,
Abstract要約: マルチモーダルな言語モデルにおける幻覚は、テキスト・視覚バイアスと共起バイアスによって引き起こされる。勾配に基づく自己回帰法を用いて,各トークンの種類の影響を推定する。我々の手法は、コストのかかる微調整、追加モデル、データ統計など、追加のリソースを必要とせずに動作します。
参考スコア（独自算出の注目度）: 49.26064449816502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hallucinations in multimodal large language model are caused by the text-visual bias and the co-occurrence bias. The former reflects an over-reliance on text information in the decision-making process, while the latter arises from the statistical object-pairing patterns abstracted from the training data. Existing mitigation methods heuristically address these biases without understanding the fluctuating bias level across the instances. We first propose estimating the influence of respective token types (visual, prompt, and previous outputs) using a gradient-based self-reflection method. The estimated token influence further enables the detection of object-related visual tokens and their integration into an influence-aware contrastive decoding framework to mitigate both types of biases simultaneously. Our method operates without the need for additional resources, such as costly fine-tuning, extra models, or data statistics. Extensive experiments show it effectively reduces hallucinations, achieving up to a 92% accuracy increase on LLaVA-QA90.
Abstract（参考訳）: マルチモーダルな言語モデルにおける幻覚は、テキスト・視覚バイアスと共起バイアスによって引き起こされる。前者は意思決定過程におけるテキスト情報の過度な信頼を反映し、後者はトレーニングデータから抽象化された統計的オブジェクトペアリングパターンから生じる。既存の緩和方法は、インスタンス全体の変動バイアスレベルを理解することなく、これらのバイアスにヒューリスティックに対処する。まず、勾配に基づく自己回帰法を用いて、各トークンタイプ(視覚、プロンプト、以前の出力)の影響を推定する。さらに、推定されたトークンの影響により、オブジェクト関連の視覚トークンの検出と、両方のバイアスを同時に緩和するインフルエンサー対応コントラストデコーディングフレームワークへの統合が可能になる。我々の手法は、コストのかかる微調整、追加モデル、データ統計など、追加のリソースを必要とせずに動作します。大規模な実験では、LLaVA-QA90の92%の精度向上を達成し、幻覚を効果的に減少させる。

関連論文リスト

Dissecting Representation Misalignment in Contrastive Learning via Influence Function [15.28417468377201]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。 ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。我々はECIFに基づいて,データ評価,誤修正検出,誤予測トレースバックタスクのための一連のアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-11-18T15:45:41Z)
Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文参考訳（メタデータ） (2024-01-17T07:58:18Z)
Data augmentation and explainability for bias discovery and mitigation in deep learning [0.0]
この論文は、ディープニューラルネットワークにおけるバイアスの影響を調査し、モデルパフォーマンスへの影響を減らす方法を提案する。最初の部分は、データやモデルのバイアスやエラーの潜在的な原因を分類し、記述することから始まり、特に機械学習パイプラインのバイアスに焦点を当てている。次の章では、予測と制御を正当化し、モデルを改善する手段として、説明可能なAIの分類と方法について概説する。
論文参考訳（メタデータ） (2023-08-18T11:02:27Z)
Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文参考訳（メタデータ） (2023-02-22T14:50:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。