Fugu-MT 論文翻訳(概要): Accelerating Direct Preference Optimization with Prefix Sharing

論文の概要: Accelerating Direct Preference Optimization with Prefix Sharing

arxiv url: http://arxiv.org/abs/2410.20305v1
Date: Sun, 27 Oct 2024 02:06:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.911352
Title: Accelerating Direct Preference Optimization with Prefix Sharing
Title（参考訳）: プレフィックス共有による直接選好最適化の高速化
Authors: Franklin Wang, Sumanth Hegde,
Abstract要約: 我々は、選択された応答を1つのシーケンスとして処理し、共有したプレフィックスを1つのシーケンスとして処理する新しいテクニックである、選好チューニングのためのプレフィックス共有を導入する。コンバージェンスに影響を与えることなく,一般的なDPOデータセットのトレーニングスループットを1.1$-1.5times$改善する。私たちの研究は、より広い範囲のアプリケーションやモデルサイズに対して、好みベースの微調整をより使いやすくすることに貢献しています。
参考スコア（独自算出の注目度）: 0.9194662383948566
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline paired preference optimization algorithms have become a popular approach for fine-tuning on preference data, outperforming traditional supervised fine-tuning in various tasks. However, traditional implementations often involve redundant computations, especially for tasks with long shared prompts. We introduce prefix sharing for preference tuning, a novel technique that processes chosen and rejected responses as one sequence with a shared prefix. To prevent cross-response contamination, we use a custom block-sparse attention mask. Our method achieves $1.1$-$1.5\times$ improvement in training throughput on popular DPO datasets, without any effect on convergence. When combined with sequence packing, we observe consistent $1.3$-$1.6\times$ speedups, benefiting even datasets with smaller sequence lengths. While we focus on Direct Preference Optimization (DPO), our approach is applicable to other paired preference tuning methods. By enhancing computational efficiency, our work contributes to making preference-based fine-tuning more accessible for a wider range of applications and model sizes. We open-source our code at https://github.com/frankxwang/dpo-prefix-sharing.
Abstract（参考訳）: オフラインペアの選好最適化アルゴリズムは、様々なタスクにおいて従来の教師付き微調整よりも優れており、選好データを微調整するための一般的なアプローチとなっている。しかしながら、従来の実装は、特に長い共有プロンプトを持つタスクにおいて、冗長な計算を伴っていることが多い。我々は、選択された応答を1つのシーケンスとして処理し、共有したプレフィックスを1つのシーケンスとして処理する新しいテクニックである、選好チューニングのためのプレフィックス共有を導入する。クロスレスポンス汚染を防止するために、我々はカスタムブロックスパースアテンションマスクを使用する。コンバージェンスに影響を与えることなく,一般的なDPOデータセットのトレーニングスループットを1.1$-1.5\times$改善する。シーケンスパッキングと組み合わせると、一貫性のある1.3$-1.6\times$スピードアップが観察でき、シーケンスの長さが小さいデータセットでも有効である。直接選好最適化(DPO)に焦点をあてる一方で,本手法は他のペア選好チューニング手法にも適用可能である。計算効率を向上させることにより、より広い範囲のアプリケーションやモデルサイズに対して、好みに基づく微調整をより使いやすくすることに貢献します。ソースコードはhttps://github.com/frankxwang/dpo-prefix-sharingで公開しています。

関連論文リスト

Listwise Preference Alignment Optimization for Tail Item Recommendation [29.20780001894192]
ペアワイズ比較からリストワイズ比較までブラッドリー・テリーモデルを拡張するLPO4Recを提案する。具体的には、明確な報酬モデルなしでより効率的で効果的なトレーニングを可能にするために、クローズドフォームの最適ポリシーを導出する。 3つの公開データセットに対する実験により、我々の手法は10の基準値よりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2025-07-03T03:08:23Z)
Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文参考訳（メタデータ） (2025-06-03T09:47:22Z)
Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective [22.248134630764497]
ガンマパラメータによって制御される時間減衰係数を組み込んだ改良された選好最適化法を提案する。我々のアプローチは、過度な適合を減らし、人間の好みの進化に反応し続けます。
論文参考訳（メタデータ） (2025-02-20T07:53:11Z)
Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文参考訳（メタデータ） (2025-02-19T07:10:32Z)
Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。 CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-04T18:59:23Z)
Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。 MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文参考訳（メタデータ） (2024-12-05T21:50:22Z)
Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文参考訳（メタデータ） (2024-11-07T23:03:11Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。また,LLMのアライメントを大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Voronoi Candidates for Bayesian Optimization [2.7309692684728617]
多くの実践的なBO法、特に高次元では、取得関数の形式的で連続的な最適化を導出する。本稿では,現在の設計点のヴォロノイ・テッセルレーションの境界上にある候補を用いて,それらのうち2つ以上に等しくなるようにすることを提案する。テッセルレーションを明示的に生成することなく,ヴォロノイ境界を直接サンプリングすることで,効率的な実装の戦略について議論する。
論文参考訳（メタデータ） (2024-02-07T14:47:13Z)
Oracle-Efficient Pessimism: Offline Policy Optimization in Contextual Bandits [82.28442917447643]
悲観的OPOのための最初の一般オラクル効率アルゴリズムを提案する。従来の悲観的アプローチと類似した統計的保証を得る。我々は多種多様な構成の非正規化OPOに対して優位性を示す。
論文参考訳（メタデータ） (2023-06-13T17:29:50Z)
Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文参考訳（メタデータ） (2022-07-07T04:42:54Z)
You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。 ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文参考訳（メタデータ） (2022-01-31T20:26:56Z)
Efficient Multi-Objective Optimization for Deep Learning [2.0305676256390934]
マルチオブジェクト最適化(MOO)はディープラーニングの一般的な課題です。真に深いニューラルネットワークのためのスケーラブルなMOOソリューションはありません。
論文参考訳（メタデータ） (2021-03-24T17:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。