Fugu-MT 論文翻訳(概要): PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training

論文の概要: PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training

arxiv url: http://arxiv.org/abs/2503.06486v1
Date: Sun, 09 Mar 2025 07:07:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.424698
Title: PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training
Title（参考訳）: PerturboLLaVA:摂動視覚訓練による多目的幻覚の軽減
Authors: Cong Chen, Mingyu Liu, Chenchen Jing, Yizhou Zhou, Fengyun Rao, Hao Chen, Bo Zhang, Chunhua Shen,
Abstract要約: 本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。 HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。 PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
参考スコア（独自算出の注目度）: 56.172959986096316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper aims to address the challenge of hallucinations in Multimodal Large Language Models (MLLMs) particularly for dense image captioning tasks. To tackle the challenge, we identify the current lack of a metric that finely measures the caption quality in concept level. We hereby introduce HalFscore, a novel metric built upon the language graph and is designed to evaluate both the accuracy and completeness of dense captions at a granular level. Additionally, we identify the root cause of hallucination as the model's over-reliance on its language prior. To address this, we propose PerturboLLaVA, which reduces the model's reliance on the language prior by incorporating adversarially perturbed text during training. This method enhances the model's focus on visual inputs, effectively reducing hallucinations and producing accurate, image-grounded descriptions without incurring additional computational overhead. PerturboLLaVA significantly improves the fidelity of generated captions, outperforming existing approaches in handling multimodal hallucinations and achieving improved performance across general multimodal benchmarks.
Abstract（参考訳）: 本稿では,多モーダル大言語モデル(MLLM)における幻覚の課題,特に高密度画像キャプションタスクに対処することを目的とする。この課題に対処するために,概念レベルでのキャプション品質を微妙に測定する指標が現在存在しないことを特定する。本稿では,言語グラフ上に構築された新しいメトリクスであるHalFscoreを紹介する。さらに, 幻覚の根本原因を, 先行する言語に対するモデルの過度な信頼度として認識する。これを解決するために、トレーニング中に逆摂動テキストを組み込むことにより、モデルが言語に依存することを減らすPerturboLLaVAを提案する。この方法は、視覚的な入力に焦点を合わせ、幻覚を効果的に減らし、さらに計算オーバーヘッドを発生させることなく正確な画像記述を生成する。 PerturboLLaVAは、生成されたキャプションの忠実性を大幅に向上させ、マルチモーダル幻覚の処理における既存のアプローチよりも優れ、一般的なマルチモーダルベンチマークにおけるパフォーマンスの向上を実現している。

関連論文リスト

Causal Decoding for Hallucination-Resistant Multimodal Large Language Models [29.52210160586723]
本稿では,創成時に目的の因果的介入を適用した因果的復号化フレームワークを提案する。記述的品質を維持しながら、デコーディングのダイナミクスを素早い依存関係に書き換えることで、偽のオブジェクトを減らすことができる。
論文参考訳（メタデータ） (2026-02-24T23:35:46Z)
PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文参考訳（メタデータ） (2025-10-22T02:41:07Z)
When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance [36.230615314462426]
我々は、言語バイアスが幻覚にどのように寄与するかを分析し、次にCMG(Cross-Modal Guidance)を導入する。 CMGは、オリジナルのモデルの出力と劣化した視覚言語的注意を持つものとの違いを活用することで幻覚に対処する。 CMGは幻覚特異的なベンチマークで異なるVLMの性能を改善し、効果的に一般化できることを示す。
論文参考訳（メタデータ） (2025-10-12T06:17:13Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [42.871396640891334]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文参考訳（メタデータ） (2025-05-26T08:36:10Z)
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文参考訳（メタデータ） (2025-03-26T16:05:01Z)
Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文参考訳（メタデータ） (2025-02-10T03:43:55Z)
EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文参考訳（メタデータ） (2025-01-06T00:39:31Z)
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。 LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文参考訳（メタデータ） (2025-01-03T17:56:28Z)
Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding [14.701135083174918]
LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する。言語に対する依存度が高すぎるため、幻覚を起こす傾向にある。そこで我々は,SumGD (Slide-Guided Decoding) という新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-17T08:24:27Z)
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文参考訳（メタデータ） (2024-03-27T16:04:47Z)
Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。 M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文参考訳（メタデータ） (2024-03-20T22:05:18Z)
IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文参考訳（メタデータ） (2024-02-28T16:57:22Z)
Mitigating Open-Vocabulary Caption Hallucinations [33.960405731583656]
オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。我々のフレームワークには、生成基盤モデルを利用してオープン語彙オブジェクト幻覚を評価する新しいベンチマークであるOpenCHAIRが含まれている。閉じたオブジェクトリストを使わずにオープン語彙の幻覚を緩和するために,MOCHaを提案する。
論文参考訳（メタデータ） (2023-12-06T17:28:03Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。