Fugu-MT 論文翻訳(概要): MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

論文の概要: MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2410.17637v1
Date: Wed, 23 Oct 2024 07:56:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.371114
Title: MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
Title（参考訳）: MIA-DPO:大規模ビジョンランゲージモデルのためのマルチイメージ拡張直接選好最適化
Authors: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang,
Abstract要約: Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。 MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
参考スコア（独自算出の注目度）: 85.30735602813093
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Visual preference alignment involves training Large Vision-Language Models (LVLMs) to predict human preferences between visual inputs. This is typically achieved by using labeled datasets of chosen/rejected pairs and employing optimization algorithms like direct preference optimization (DPO). Existing visual alignment methods, primarily designed for single-image scenarios, struggle to effectively handle the complexity of multi-image tasks due to the scarcity of diverse training data and the high cost of annotating chosen/rejected pairs. We present Multi-Image Augmented Direct Preference Optimization (MIA-DPO), a visual preference alignment approach that effectively handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse multi-image training data by extending single-image data with unrelated images arranged in grid collages or pic-in-pic formats, significantly reducing the costs associated with multi-image data annotations. Our observation reveals that attention values of LVLMs vary considerably across different images. We use attention values to identify and filter out rejected responses the model may have mistakenly focused on. Our attention-aware selection for constructing the chosen/rejected pairs without relying on (i) human annotation, (ii) extra data, and (iii) external models or APIs. MIA-DPO is compatible with various architectures and outperforms existing methods on five multi-image benchmarks, achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's ability to understand single images.
Abstract（参考訳）: 視覚的嗜好アライメントには、視覚入力間の人間の嗜好を予測するためのLVLM(Large Vision-Language Models)のトレーニングが含まれる。これは典型的には、選択/削除されたペアのラベル付きデータセットを使用し、直接選好最適化(DPO)のような最適化アルゴリズムを採用することで達成される。既存の視覚アライメント手法は、主に単一イメージのシナリオ用に設計されており、多様なトレーニングデータの不足と、選択/削除されたペアに注釈を付けるコストが高いため、マルチイメージタスクの複雑さを効果的に扱うのに苦労している。マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチであるMulti-Image Augmented Direct Preference Optimization (MIA-DPO)を提案する。 MIA-DPOは、グリッドコラージュやピクチャー・イン・ピクチャー・フォーマットに配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減し、マルチイメージデータアノテーションに関連するコストを大幅に削減する。観察の結果,LVLMの注意値は画像によって大きく異なることがわかった。私たちは注意値を使って、モデルが誤ってフォーカスしていたかもしれない拒否された応答を識別し、フィルタリングします。選択/拒否ペア構築のための注意-意識選択 (i)人間の注釈 (二)余分なデータ、及び (iii)外部モデルまたはAPI。 MIA-DPOは、様々なアーキテクチャと互換性があり、5つのマルチイメージベンチマークで既存の手法よりも優れており、LLaVA-v1.5では3.0%、最近のInternLM-XC2.5では4.3%の性能向上を実現している。さらに、MIA-DPOは単一画像の理解能力に最小限の影響を与える。

関連論文リスト

PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [28.442470930703337]
PRISMは、効率的なマルチモーダルデータ選択のためのトレーニング不要のアプローチである。 Pearson相関解析を用いて、MLLMの固有視覚符号化特性の定量化を行う。ビジュアルインストラクションのチューニングとデータ選択に要する時間を従来の手法の30%に短縮する。
論文参考訳（メタデータ） (2025-02-17T18:43:41Z)
Dual Caption Preference Optimization for Diffusion Models [51.223275938663235]
本稿では,2つの異なるキャプションを用いて無関係なプロンプトを緩和する手法であるDual Caption Preference Optimization (DCPO)を提案する。実験の結果,DCPOは画像品質とプロンプトとの関係を著しく改善し,SFT_Chosen,Diffusion-DPO,MaPOを複数の指標で比較した。
論文参考訳（メタデータ） (2025-02-09T20:34:43Z)
CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文参考訳（メタデータ） (2025-01-28T02:05:38Z)
Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。 PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文参考訳（メタデータ） (2025-01-11T22:38:41Z)
Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文参考訳（メタデータ） (2024-12-23T09:29:40Z)
Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文参考訳（メタデータ） (2024-10-23T16:42:56Z)
Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [11.796170286878056]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合に有効であるしばしば画像情報よりもテキストを好んでおり、信頼できない出力や視覚幻覚をもたらす。テキストと画像の嗜好のバランスをとるために,MFPO(Modality-Fair Preference Optimization)を提案する。
論文参考訳（メタデータ） (2024-10-20T08:56:52Z)
AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。 AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文参考訳（メタデータ） (2024-09-20T10:50:21Z)
Understanding Alignment in Multimodal LLMs: A Comprehensive Study [46.33812471516309]
マルチモーダル大言語モデル(MLLM)における嗜好アライメントのそれぞれの側面を解析する。オフライン手法とオンライン手法を組み合わせることで,特定のシナリオにおけるモデルの性能が向上することを示す。 BDHS(Bias-Driven Hallucination Smpling)と呼ばれる,マルチモーダルな嗜好データ作成手法を提案する。
論文参考訳（メタデータ） (2024-07-02T17:55:03Z)
mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文参考訳（メタデータ） (2024-06-17T17:59:58Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文参考訳（メタデータ） (2024-03-14T17:51:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。