論文の概要: MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.17637v1
- Date: Wed, 23 Oct 2024 07:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:04.932992
- Title: MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
- Title(参考訳): MIA-DPO:大規模ビジョンランゲージモデルのためのマルチイメージ拡張直接選好最適化
- Authors: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang,
- Abstract要約: Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
- 参考スコア(独自算出の注目度): 85.30735602813093
- License:
- Abstract: Visual preference alignment involves training Large Vision-Language Models (LVLMs) to predict human preferences between visual inputs. This is typically achieved by using labeled datasets of chosen/rejected pairs and employing optimization algorithms like direct preference optimization (DPO). Existing visual alignment methods, primarily designed for single-image scenarios, struggle to effectively handle the complexity of multi-image tasks due to the scarcity of diverse training data and the high cost of annotating chosen/rejected pairs. We present Multi-Image Augmented Direct Preference Optimization (MIA-DPO), a visual preference alignment approach that effectively handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse multi-image training data by extending single-image data with unrelated images arranged in grid collages or pic-in-pic formats, significantly reducing the costs associated with multi-image data annotations. Our observation reveals that attention values of LVLMs vary considerably across different images. We use attention values to identify and filter out rejected responses the model may have mistakenly focused on. Our attention-aware selection for constructing the chosen/rejected pairs without relying on (i) human annotation, (ii) extra data, and (iii) external models or APIs. MIA-DPO is compatible with various architectures and outperforms existing methods on five multi-image benchmarks, achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's ability to understand single images.
- Abstract(参考訳): 視覚的嗜好アライメントには、視覚入力間の人間の嗜好を予測するためのLVLM(Large Vision-Language Models)のトレーニングが含まれる。
これは典型的には、選択/削除されたペアのラベル付きデータセットを使用し、直接選好最適化(DPO)のような最適化アルゴリズムを採用することで達成される。
既存の視覚アライメント手法は、主に単一イメージのシナリオ用に設計されており、多様なトレーニングデータの不足と、選択/削除されたペアに注釈を付けるコストが高いため、マルチイメージタスクの複雑さを効果的に扱うのに苦労している。
マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチであるMulti-Image Augmented Direct Preference Optimization (MIA-DPO)を提案する。
MIA-DPOは、グリッドコラージュやピクチャー・イン・ピクチャー・フォーマットに配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減し、マルチイメージデータアノテーションに関連するコストを大幅に削減する。
観察の結果,LVLMの注意値は画像によって大きく異なることがわかった。
私たちは注意値を使って、モデルが誤ってフォーカスしていたかもしれない拒否された応答を識別し、フィルタリングします。
選択/拒否ペア構築のための注意-意識選択
(i)人間の注釈
(二)余分なデータ、及び
(iii)外部モデルまたはAPI。
MIA-DPOは、様々なアーキテクチャと互換性があり、5つのマルチイメージベンチマークで既存の手法よりも優れており、LLaVA-v1.5では3.0%、最近のInternLM-XC2.5では4.3%の性能向上を実現している。
さらに、MIA-DPOは単一画像の理解能力に最小限の影響を与える。
関連論文リスト
- Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [11.796170286878056]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合に有効である
しばしば画像情報よりもテキストを好んでおり、信頼できない出力や視覚幻覚をもたらす。
テキストと画像の嗜好のバランスをとるために,MFPO(Modality-Fair Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-10-20T08:56:52Z) - AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - Understanding Alignment in Multimodal LLMs: A Comprehensive Study [46.33812471516309]
マルチモーダル大言語モデル(MLLM)における嗜好アライメントのそれぞれの側面を解析する。
オフライン手法とオンライン手法を組み合わせることで,特定のシナリオにおけるモデルの性能が向上することを示す。
BDHS(Bias-Driven Hallucination Smpling)と呼ばれる,マルチモーダルな嗜好データ作成手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T17:55:03Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。