論文の概要: Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs
- arxiv url: http://arxiv.org/abs/2505.22396v1
- Date: Wed, 28 May 2025 14:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.650005
- Title: Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs
- Title(参考訳): コンテキストからキューへのズーム:マルチイメージMLLMの階層的選好最適化
- Authors: Xudong Li, Mengdan Zhang, Peixian Chen, Xiawu Zheng, Yan Zhang, Jingyuan Zheng, Yunhang Shen, Ke Li, Chaoyou Fu, Xing Sun, Rongrong Ji,
- Abstract要約: マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。
CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。
実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
- 参考スコア(独自算出の注目度): 74.74767980885758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Models (MLLMs) excel at single-image tasks but struggle with multi-image understanding due to cross-modal misalignment, leading to hallucinations (context omission, conflation, and misinterpretation). Existing methods using Direct Preference Optimization (DPO) constrain optimization to a solitary image reference within the input sequence, neglecting holistic context modeling. We propose Context-to-Cue Direct Preference Optimization (CcDPO), a multi-level preference optimization framework that enhances per-image perception in multi-image settings by zooming into visual clues -- from sequential context to local details. It features: (i) Context-Level Optimization : Re-evaluates cognitive biases underlying MLLMs' multi-image context comprehension and integrates a spectrum of low-cost global sequence preferences for bias mitigation. (ii) Needle-Level Optimization : Directs attention to fine-grained visual details through region-targeted visual prompts and multimodal preference supervision. To support scalable optimization, we also construct MultiScope-42k, an automatically generated dataset with high-quality multi-level preference pairs. Experiments show that CcDPO significantly reduces hallucinations and yields consistent performance gains across general single- and multi-image tasks.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、単一イメージのタスクにおいて優れるが、多モーダルなミスアライメントによる多モーダルな理解に苦慮し、幻覚(テキストの省略、強調、誤解釈)を引き起こす。
直接優先度最適化(DPO)を用いた既存の手法は、入力シーケンス内の孤立画像参照に制約を最適化し、全体論的文脈モデリングを無視する。
CcDPO(Context-to-Cue Direct Preference Optimization, CcDPO)は、視覚的手がかりをズームすることで、画像ごとの知覚を、連続的なコンテキストから局所的な詳細へと拡張する多段階優先最適化フレームワークである。
特徴:
(i)コンテキストレベル最適化 : MLLMのマルチイメージコンテキスト理解の基盤となる認知バイアスを再評価し、バイアス緩和のための低コストなグローバルシーケンス選好のスペクトルを統合する。
(II)ニードルレベル最適化 : 領域目標の視覚的プロンプトとマルチモーダル優先監督を通して、きめ細かな視覚的詳細に注意を向ける。
また、スケーラブルな最適化を実現するために、高品質なマルチレベルの選好ペアを持つ自動生成データセットであるMultiScope-42kを構築した。
実験により、CcDPOは幻覚を著しく低減し、一般的なシングルイメージタスクとマルチイメージタスクで一貫したパフォーマンス向上をもたらすことが示された。
関連論文リスト
- Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [18.855378039713678]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。