論文の概要: DAMO: Data- and Model-aware Alignment of Multi-modal LLMs
- arxiv url: http://arxiv.org/abs/2502.01943v1
- Date: Tue, 04 Feb 2025 02:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:08.131718
- Title: DAMO: Data- and Model-aware Alignment of Multi-modal LLMs
- Title(参考訳): DAMO:マルチモーダルLCMのデータ・モデル対応アライメント
- Authors: Jinda Lu, Junkang Wu, Jinghan Li, Xiaojun Jia, Shuo Wang, YiFan Zhang, Junfeng Fang, Xiang Wang, Xiangnan He,
- Abstract要約: 本稿では,データとモデルを考慮したDPO(DAMO)を提案し,最適化プロセスを2つの重要な側面から調整する。
この2つの戦略を組み合わせることで、DAMOはモデルが様々なレベルの硬さを持つデータに効果的に適応できるようにする。
- 参考スコア(独自算出の注目度): 31.116618294885065
- License:
- Abstract: Direct Preference Optimization (DPO) has shown effectiveness in aligning multi-modal large language models (MLLM) with human preferences. However, existing methods exhibit an imbalanced responsiveness to the data of varying hardness, tending to overfit on the easy-to-distinguish data while underfitting on the hard-to-distinguish data. In this paper, we propose Data- and Model-aware DPO (DAMO) to dynamically adjust the optimization process from two key aspects: (1) a data-aware strategy that incorporates data hardness, and (2) a model-aware strategy that integrates real-time model responses. By combining the two strategies, DAMO enables the model to effectively adapt to data with varying levels of hardness. Extensive experiments on five benchmarks demonstrate that DAMO not only significantly enhances the trustworthiness, but also improves the effectiveness over general tasks. For instance, on the Object HalBench, our DAMO-7B reduces response-level and mentioned-level hallucination by 90.0% and 95.3%, respectively, surpassing the performance of GPT-4V.
- Abstract(参考訳): 直接選好最適化(DPO)は、マルチモーダル大言語モデル(MLLM)と人間の選好の整合性を示す。
しかし, 従来の手法では, 様々な硬さのデータに対して不均衡な応答性を示し, 識別し易いデータに過度に適合し, 識別し難いデータに過度に適合する傾向にある。
本稿では,データ硬度を組み込んだデータ・アウェア・ストラテジーと,リアルタイムモデル応答を統合するモデル・アウェア・ストラテジーの2つの主要な側面から,最適化プロセスを動的に調整するデータ・アンド・モデル・アウェア DPO (DAMO) を提案する。
この2つの戦略を組み合わせることで、DAMOはモデルが様々なレベルの硬さを持つデータに効果的に適応できるようにする。
5つのベンチマークでの大規模な実験により、DAMOは信頼性を著しく向上するだけでなく、一般的なタスクに対する効果も向上することが示された。
例えば、Object HalBenchでは、私たちのDAMO-7Bは応答レベルと言及レベルの幻覚をそれぞれ90.0%、95.3%減らし、GPT-4Vを上回ります。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。
実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文 参考訳(メタデータ) (2024-12-23T09:29:40Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - P3: A Policy-Driven, Pace-Adaptive, and Diversity-Promoted Framework for data pruning in LLM Training [22.61313628957683]
本稿では、反復データプルーニングによるタスク固有の微調整プロセスの最適化を目的とした適応型フレームワークであるP3を紹介する。
P3は、政策駆動型困難度測定、ペース適応選択、多様性促進の3つの主要な構成要素で構成されている。
我々は,従来のデータプルーニング手法に対して,P3を推論シナリオであるAPPSとMATHで検証し,大幅な改善を示した。
論文 参考訳(メタデータ) (2024-08-10T12:44:49Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。