論文の概要: Random Is Hard to Beat: Active Selection in online DPO with Modern LLMs
- arxiv url: http://arxiv.org/abs/2604.02766v1
- Date: Fri, 03 Apr 2026 06:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.345852
- Title: Random Is Hard to Beat: Active Selection in online DPO with Modern LLMs
- Title(参考訳): オンラインDPOでRandomは勝てない: モダンなLLMを使ったアクティブセレクション
- Authors: Giyeong Oh, Junghyun Lee, Jaehyun Park, Youngjae Yu, Wonho Bae, Junhyug Noh,
- Abstract要約: オンラインダイレクトパラメータ最適化(DPO)におけるクエリ効率の最適化を目指すActive Preference Learning(APL)
乱数に対するAPLの評価は,無害性,有益性,命令追従性などによって行われる。
標準的なベンチマークによって測定される一般的な能力が低下しても、勝利率が向上する解離を観察する。
- 参考スコア(独自算出の注目度): 34.312129223495745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern LLMs inherit strong priors from web-scale pretraining, which can limit the headroom of post-training data-selection strategies. While Active Preference Learning (APL) seeks to optimize query efficiency in online Direct Preference Optimization (DPO), the inherent richness of on-policy candidate pools often renders simple Random sampling a surprisingly formidable baseline. We evaluate uncertainty-based APL against Random across harmlessness, helpfulness, and instruction-following settings, utilizing both reward models and LLM-as-a-judge proxies. We find that APL yields negligible improvements in proxy win-rates compared to Random. Crucially, we observe a dissociation where win-rate improves even as general capability -- measured by standard benchmarks -- degrades. APL fails to mitigate this capability collapse or reduce variance significantly better than random sampling. Our findings suggest that in the regime of strong pre-trained priors, the computational overhead of active selection is difficult to justify against the ``cheap diversity'' provided by simple random samples. Our code is available at https://github.com/BootsofLagrangian/random-vs-apl.
- Abstract(参考訳): 現代のLCMは、Webスケールの事前学習から強力な事前学習を継承し、トレーニング後のデータ選択戦略のヘッドルームを制限することができる。
Active Preference Learning (APL) はオンラインのダイレクト推論最適化(DPO)におけるクエリ効率の最適化を目指しているが、オンラインの候補プールの本質的な豊かさは、驚くほど厳しいベースラインを単純なランダムサンプリングに反映することが多い。
我々は、報酬モデルとLLM-as-a-judgeプロキシの両方を用いて、無害性、有用性、および命令追従設定におけるランダムに対する不確実性に基づくAPLを評価した。
我々は、APLがRandomと比較して、プロキシの勝利率の無視できる改善をもたらすことを発見した。
重要なことに、標準的なベンチマークによって測定される一般的な能力が低下しても、勝利率が向上する解離が観察される。
APLは、この能力の崩壊を緩和したり、ランダムサンプリングよりも大きなばらつきを減らしたりするのに失敗する。
以上の結果から, 事前学習の強い状況下では, 単純なランダムサンプルによって提供される「チープ多様性」に対して, 能動選択の計算オーバーヘッドを正当化することは困難であることが示唆された。
私たちのコードはhttps://github.com/BootsofLagrangian/random-vs-apl.comで利用可能です。
関連論文リスト
- Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards [26.5011687714416]
既存のグループベースのポリシー最適化手法は、すべてのトレーニングプロンプトに対して一定数のロールアウトを割り当てる。
この均一な割り当ては全てのプロンプトを等しく情報的扱いし、非効率的な計算予算の使用と訓練の進捗を妨げる可能性がある。
本稿では、既存のバッチのプロンプトに所定のロールアウト予算を割り当て、ポリシー更新のグラデーションのばらつきを最小限に抑える可変インフォームド予測割当戦略であるVIPを紹介する。
論文 参考訳(メタデータ) (2026-02-02T03:50:01Z) - Learn More with Less: Uncertainty Consistency Guided Query Selection for RLVR [18.494852448006462]
既存のRLVRアルゴリズムでは、大量のクエリ予算が必要で、アノテーションはコストがかかる。
我々は、RLVRにアクティブラーニング(AL)を導入し、より少ないがより情報的なクエリが類似または優れたパフォーマンスをもたらすかどうかを調査する。
実験の結果,本手法は乱数および古典的ALベースラインを一貫して上回り,データの30%をトレーニングしながら全データセットのパフォーマンスを達成できた。
論文 参考訳(メタデータ) (2026-01-30T05:41:55Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - OptPO: Optimal Rollout Allocation for Test-time Policy Optimization [11.375209834858135]
テスト時のポリシー最適化により、大規模言語モデルでは、自己生成ロールアウトからのフィードバックを活用することで、分散シフトに適応することができる。
我々は、推論予算を適応的に割り当てる原則的フレームワークであるテスト時間ポリシー最適化のための最適ロールアウト割当(OptPO)を提案する。
論文 参考訳(メタデータ) (2025-12-02T15:38:52Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。