論文の概要: AutoMixAlign: Adaptive Data Mixing for Multi-Task Preference Optimization in LLMs
- arxiv url: http://arxiv.org/abs/2506.00569v1
- Date: Sat, 31 May 2025 13:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.2033
- Title: AutoMixAlign: Adaptive Data Mixing for Multi-Task Preference Optimization in LLMs
- Title(参考訳): AutoMixAlign:LLMにおけるマルチタスク優先最適化のための適応データ混合
- Authors: Nicholas E. Corrado, Julian Katz-Samuels, Adithya Devraj, Hyokun Yun, Chao Zhang, Yi Xu, Yi Pan, Bing Yin, Trishul Chilimbi,
- Abstract要約: 本研究では,タスク間のパフォーマンスのバランスをとるために,学習中に適応的に混合する理論的な基底アルゴリズムについて検討する。
AMA-Rはタスクを優先順位付けする目的を適応的に調整し、AMA-Sはタスクからサンプルされたデータの量を適応的に調整してタスクを優先順位付けする。
我々は、いくつかの一般的なアライメント設定を評価し、AMAが標準アライメントアプローチよりも優れていることを発見した。
- 参考スコア(独自算出の注目度): 33.87805544053889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When aligning large language models (LLMs), their performance on various tasks (such as being helpful, harmless, and honest) depends heavily on the composition of their training data. However, selecting a data mixture that achieves strong performance across all tasks is challenging. Existing approaches rely on large ablation studies, heuristics, or human intuition, but these can be prohibitively expensive and suboptimal. We study this problem in the setting of preference optimization via DPO and introduce AutoMixAlign (AMA), a theoretically-grounded algorithm that adaptively mixes datasets during training to balance performance across tasks. AMA first trains \textit{specialist models} for each task to determine losses that correspond to strong task performance. Then, it trains a generalist model using a novel minimax optimization that prioritizes tasks for which generalist model losses deviate most from specialist model losses. To optimize this problem, we propose two algorithms: (1) AMA-R, which adaptively reweights the objective to prioritize tasks, and (2) AMA-S, which adaptively adjusts how much data is sampled from each task to prioritize tasks. Both algorithms achieve a convergence rate of $O(1/\sqrt{T})$ in the convex case. AMA-R's convergence result follows from Sagawa et al. (2019), and we provide a convergence proof for AMA-S using online learning techniques such as EXP3. We evaluate AMA on several multitask alignment setups and find that AMA outperforms the standard alignment approach -- which simply optimizes the total loss across all tasks -- and also outperforms model merging methods.
- Abstract(参考訳): 大規模言語モデル(LLM)を整合させる場合、様々なタスク(役に立ち、無害で、正直であるなど)におけるパフォーマンスは、トレーニングデータの構成に大きく依存する。
しかし、すべてのタスクで強力なパフォーマンスを達成するデータミックスを選択することは難しい。
既存のアプローチは、大規模なアブレーション研究、ヒューリスティックス、あるいは人間の直観に頼っているが、これらは違法に高価で最適である。
本稿では、DPOによる選好最適化の設定においてこの問題を考察し、トレーニング中にデータセットを適応的に混合してタスク間のパフォーマンスのバランスをとる理論的なアルゴリズムであるAutoMixAlign(AMA)を導入する。
AMA はまず各タスクに対して \textit{specialist model} を訓練し、強いタスクパフォーマンスに対応する損失を決定する。
そして、ジェネラリストモデル損失がスペシャリストモデル損失から最も逸脱するタスクを優先する、新しいミニマックス最適化を用いてジェネラリストモデルを訓練する。
この問題を最適化するために,(1)タスクを優先する目的を適応的に重み付けするAMA-Rと,(2)タスクからサンプルしたデータ量を適応的に調整してタスクを優先するAMA-Sという2つのアルゴリズムを提案する。
どちらのアルゴリズムも凸の場合、$O(1/\sqrt{T})$の収束率を達成する。
AMA-R の収束結果は Sgawa et al (2019) に続き,EXP3 などのオンライン学習技術を用いた AMA-S の収束証明を提供する。
複数のマルチタスクアライメント設定でAMAを評価し、AMAが標準アライメントアプローチ(タスク全体の損失を最適化する)よりも優れており、モデルマージ手法よりも優れています。
関連論文リスト
- DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - Ensembles of Low-Rank Expert Adapters [9.599957499802446]
本稿では,多種多様なタスクを扱うモデルの能力を向上させるために,低ランクエキスパートアダプタ(ELREA)フレームワークの組み立てを提案する。
ELREAは、トレーニング指示をその勾配方向に基づいてクラスタ化し、さまざまな専門分野を表現している。
推論中、ELREAは、入力データの勾配とトレーニングクラスタとの類似性に基づいて、最も関連する専門家アダプタからの予測を組み合わせる。
論文 参考訳(メタデータ) (2025-01-31T18:07:21Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Scalable Fine-tuning from Multiple Data Sources: A First-Order Approximation Approach [17.79010397902909]
目的タスクに対する言語モデル(LM)の微調整の問題について,$n$補助タスクの情報を用いて最適に検討する。
この問題には、NLPにおけるターゲット命令チューニングや、チェーン・オブ・ファインタニングにおけるデータ選択など、幅広い応用がある。
繰り返しトレーニングを必要とせずにモデル微調整性能を推定する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-28T21:26:50Z) - Robust Multi-Task Learning with Excess Risks [24.695243608197835]
マルチタスク学習(MTL)は、全てのタスク損失の凸結合を最適化することにより、複数のタスクのジョイントモデルを学ぶことを検討する。
既存の方法は適応的な重み更新方式を用いており、各損失に基づいてタスク重みを動的に調整し、困難なタスクを優先順位付けする。
本稿では,過度リスクに基づくタスクバランス手法であるMulti-Task Learning with Excess Risks (ExcessMTL)を提案する。
論文 参考訳(メタデータ) (2024-02-03T03:46:14Z) - STG-MTL: Scalable Task Grouping for Multi-Task Learning Using Data Map [4.263847576433289]
MTL(Multi-Task Learning)は、従来のSTL(Single-Task Learning)よりも性能が向上し、普及した強力な技術である。
しかし、MTLは指数的なタスクグルーピング数が多いため、しばしば困難である。
本稿では,これらの課題に対処し,課題分類のためのスケーラブルでモジュール化されたソリューションを提供する新しいデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2023-07-07T03:54:26Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。