論文の概要: Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning
- arxiv url: http://arxiv.org/abs/2506.07227v1
- Date: Sun, 08 Jun 2025 17:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.719409
- Title: Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning
- Title(参考訳): 群集における幻覚:制御された視覚編集と細粒度マルチモーダル学習
- Authors: Tianyi Bai, Yuxuan Fan, Jiantao Qiu, Fupeng Sun, Jiayi Song, Junlin Han, Zichen Liu, Conghui He, Wentao Zhang, Binhang Yuan,
- Abstract要約: マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクにおいて高い性能を達成しているが、細かな視覚的差異に苦慮している。
本稿では,最小限に編集された画像対を意味的に一致した字幕で生成する制御データ生成パイプラインを提案する。
- 参考スコア(独自算出の注目度): 27.33722610773045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have achieved strong performance on vision-language tasks but still struggle with fine-grained visual differences, leading to hallucinations or missed semantic shifts. We attribute this to limitations in both training data and learning objectives. To address these issues, we propose a controlled data generation pipeline that produces minimally edited image pairs with semantically aligned captions. Using this pipeline, we construct the Micro Edit Dataset (MED), containing over 50K image-text pairs spanning 11 fine-grained edit categories, including attribute, count, position, and object presence changes. Building on MED, we introduce a supervised fine-tuning (SFT) framework with a feature-level consistency loss that promotes stable visual embeddings under small edits. We evaluate our approach on the Micro Edit Detection benchmark, which includes carefully balanced evaluation pairs designed to test sensitivity to subtle visual variations across the same edit categories. Our method improves difference detection accuracy and reduces hallucinations compared to strong baselines, including GPT-4o. Moreover, it yields consistent gains on standard vision-language tasks such as image captioning and visual question answering. These results demonstrate the effectiveness of combining targeted data and alignment objectives for enhancing fine-grained visual reasoning in MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)は、視覚言語タスクにおいて高いパフォーマンスを達成しているが、それでも細粒度の視覚的差に苦慮し、幻覚や意味変化の欠如につながっている。
これは、トレーニングデータと学習目標の両方の制限によるものです。
これらの問題に対処するため,セマンティック・アライン・キャプションを用いた最小編集画像対を生成する制御データ生成パイプラインを提案する。
このパイプラインを用いて、属性、カウント、位置、オブジェクトの存在率などを含む11の細かい編集カテゴリにまたがる50K以上の画像テキストペアを含むマイクロ編集データセット(MED)を構築した。
MEDをベースとして,小さな編集下での安定した視覚的埋め込みを促進する機能レベルの整合性を損なう教師付き微調整(SFT)フレームワークを導入する。
我々は、同じ編集カテゴリにおける微妙な視覚的変化に対する感度をテストするために設計された、慎重にバランスのとれた評価ペアを含むマイクロ編集検出ベンチマークに対するアプローチを評価する。
本手法は差分検出精度を向上し, GPT-4oを含む強いベースラインと比較して幻覚を低減する。
さらに、イメージキャプションや視覚的質問応答といった、標準的な視覚言語タスクに対して、一貫した利得が得られる。
これらの結果は,MLLMの微細な視覚的推論を改善するために,ターゲットデータとアライメント目的を組み合わせることの有効性を示す。
関連論文リスト
- Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions [31.637204677787576]
我々は、モデルの既存の知識と視覚的理解でトレーニングデータを自動的に適応するデータ中心のアプローチである、知識適応(KnowAda)ファインチューニングを導入する。
KnowAdaは、高い記述性を維持しながら幻覚を最小限にする。
以上の結果から,KnowAdaは自動測定と人的評価の両方において,様々なベースラインを上回ります。
論文 参考訳(メタデータ) (2024-11-13T20:50:04Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。