論文の概要: SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning
- arxiv url: http://arxiv.org/abs/2505.02363v1
- Date: Mon, 05 May 2025 04:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.561479
- Title: SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning
- Title(参考訳): SIMPLEMIX:言語モデル推論学習におけるオフ・オン・ポリティクスデータのフラストレーション
- Authors: Tianjian Li, Daniel Khashabi,
- Abstract要約: オンラインおよびオフラインのデータは、優先最適化において相補的な長所を提供することを示す。
SIMPLEMIXを導入する。これは、オン・ポリティクスとオフ・ポリティクス・プライオリティ・ラーニングの相補的な強みを組み合わせたアプローチである。
- 参考スコア(独自算出の注目度): 21.054309328036382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning language models with human preferences relies on pairwise preference datasets. While some studies suggest that on-policy data consistently outperforms off -policy data for preference learning, others indicate that the advantages of on-policy data may be task-dependent, highlighting the need for a systematic exploration of their interplay. In this work, we show that on-policy and off-policy data offer complementary strengths in preference optimization: on-policy data is particularly effective for reasoning tasks like math and coding, while off-policy data performs better on open-ended tasks such as creative writing and making personal recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach to combine the complementary strengths of on-policy and off-policy preference learning by simply mixing these two data sources. Our empirical results across diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it outperforms prior approaches that are much more complex in combining on- and off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.
- Abstract(参考訳): 言語モデルを人間の好みに合わせることは、ペアの好みのデータセットに依存する。
ある研究では、オン・ポリティクス・データは、プライオリティ・ラーニングのためのオフ・ポリティ・データより一貫して優れていることを示唆する研究もあるが、オン・ポリティクス・データの利点はタスク依存である可能性を示し、それらの相互作用を体系的に探究する必要性を強調している。
オンラインデータは特に数学やコーディングといったタスクの推論に有効であり、オフラインデータはクリエイティブな記述や個人的なレコメンデーションのようなオープンなタスクでより良く機能する。
これらの知見に導いられたSIMPLEMIXは、これらの2つのデータソースを単純に混ぜることで、オン・ポリティクスとオフ・ポリティクス・プライオリティ・ラーニングの相補的な長所を結合するアプローチである。
SIMPLEMIXは言語モデルのアライメントを大幅に改善することを示す。
具体的には、SIMPLEMIXは、Alpaca Eval 2.0で平均6.03%向上する。
さらに、HyPOやDPO-Mix-Pのようなオン・アンド・オフ・ポリティクス・データの組み合わせにおいて、より複雑な従来のアプローチを平均3.05%上回る。
関連論文リスト
- InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization [4.899191406905833]
InCo-DPOを提案する。これは、オン・ポリティクスとオフ・ポリティクス・データを統合することにより、選好データを効率的に合成する方法である。
InCo-DPOは、オフポリティデータにおける分散シフトの制限と、オンポリティデータの品質制約を克服する。
論文 参考訳(メタデータ) (2025-03-20T06:05:36Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - WPO: Enhancing RLHF with Weighted Preference Optimization [40.07940023654452]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の価値をより緊密に整合させる、有望なソリューションである。
オフ・ポリティクスの選好最適化は、データ収集に使用されるポリシーとターゲットポリシーの間の分散的なギャップに悩まされることが多く、最適化の準最適化につながる。
本稿では,この問題を解決するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:13Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。