論文の概要: Accelerating Direct Preference Optimization with Prefix Sharing
- arxiv url: http://arxiv.org/abs/2410.20305v1
- Date: Sun, 27 Oct 2024 02:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:17:36.157979
- Title: Accelerating Direct Preference Optimization with Prefix Sharing
- Title(参考訳): プレフィックス共有による直接選好最適化の高速化
- Authors: Franklin Wang, Sumanth Hegde,
- Abstract要約: 我々は、選択された応答を1つのシーケンスとして処理し、共有したプレフィックスを1つのシーケンスとして処理する新しいテクニックである、選好チューニングのためのプレフィックス共有を導入する。
コンバージェンスに影響を与えることなく,一般的なDPOデータセットのトレーニングスループットを1.1$-1.5times$改善する。
私たちの研究は、より広い範囲のアプリケーションやモデルサイズに対して、好みベースの微調整をより使いやすくすることに貢献しています。
- 参考スコア(独自算出の注目度): 0.9194662383948566
- License:
- Abstract: Offline paired preference optimization algorithms have become a popular approach for fine-tuning on preference data, outperforming traditional supervised fine-tuning in various tasks. However, traditional implementations often involve redundant computations, especially for tasks with long shared prompts. We introduce prefix sharing for preference tuning, a novel technique that processes chosen and rejected responses as one sequence with a shared prefix. To prevent cross-response contamination, we use a custom block-sparse attention mask. Our method achieves $1.1$-$1.5\times$ improvement in training throughput on popular DPO datasets, without any effect on convergence. When combined with sequence packing, we observe consistent $1.3$-$1.6\times$ speedups, benefiting even datasets with smaller sequence lengths. While we focus on Direct Preference Optimization (DPO), our approach is applicable to other paired preference tuning methods. By enhancing computational efficiency, our work contributes to making preference-based fine-tuning more accessible for a wider range of applications and model sizes. We open-source our code at https://github.com/frankxwang/dpo-prefix-sharing.
- Abstract(参考訳): オフラインペアの選好最適化アルゴリズムは、様々なタスクにおいて従来の教師付き微調整よりも優れており、選好データを微調整するための一般的なアプローチとなっている。
しかしながら、従来の実装は、特に長い共有プロンプトを持つタスクにおいて、冗長な計算を伴っていることが多い。
我々は、選択された応答を1つのシーケンスとして処理し、共有したプレフィックスを1つのシーケンスとして処理する新しいテクニックである、選好チューニングのためのプレフィックス共有を導入する。
クロスレスポンス汚染を防止するために、我々はカスタムブロックスパースアテンションマスクを使用する。
コンバージェンスに影響を与えることなく,一般的なDPOデータセットのトレーニングスループットを1.1$-1.5\times$改善する。
シーケンスパッキングと組み合わせると、一貫性のある1.3$-1.6\times$スピードアップが観察でき、シーケンスの長さが小さいデータセットでも有効である。
直接選好最適化(DPO)に焦点をあてる一方で,本手法は他のペア選好チューニング手法にも適用可能である。
計算効率を向上させることにより、より広い範囲のアプリケーションやモデルサイズに対して、好みに基づく微調整をより使いやすくすることに貢献します。
ソースコードはhttps://github.com/frankxwang/dpo-prefix-sharingで公開しています。
関連論文リスト
- Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective [22.248134630764497]
ガンマパラメータによって制御される時間減衰係数を組み込んだ改良された選好最適化法を提案する。
我々のアプローチは、過度な適合を減らし、人間の好みの進化に反応し続けます。
論文 参考訳(メタデータ) (2025-02-20T07:53:11Z) - Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。
トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。
証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文 参考訳(メタデータ) (2025-02-19T07:10:32Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Voronoi Candidates for Bayesian Optimization [2.499907423888049]
多くの実践的なBO法、特に高次元では、取得関数の形式的で連続的な最適化を導出する。
本稿では,現在の設計点のヴォロノイ・テッセルレーションの境界上にある候補を用いて,それらのうち2つ以上に等しくなるようにすることを提案する。
テッセルレーションを明示的に生成することなく,ヴォロノイ境界を直接サンプリングすることで,効率的な実装の戦略について議論する。
論文 参考訳(メタデータ) (2024-02-07T14:47:13Z) - Pre-training helps Bayesian optimization too [49.28382118032923]
機能的事前設定のための代替的なプラクティスを模索する。
特に、より厳密な分布を事前訓練できるような、類似した関数のデータを持つシナリオを考察する。
提案手法は, 競合する手法の少なくとも3倍の効率で, 優れたハイパーパラメータを見つけることができることを示す。
論文 参考訳(メタデータ) (2022-07-07T04:42:54Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。