論文の概要: How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics
- arxiv url: http://arxiv.org/abs/2602.12180v1
- Date: Thu, 12 Feb 2026 17:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.950902
- Title: How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics
- Title(参考訳): LLMアライメントのサンプリング方法:ワンショットオプティマイマから反復ダイナミクスへ
- Authors: Yurong Chen, Yu He, Michael I. Jordan, Fan Yao,
- Abstract要約: 適切なインスタンス依存サンプリングは、より強力なランキング保証を得られる一方で、スキュードオン政治サンプリングは、構造化された嗜好の下で過剰な濃度を誘導できることを示す。
次に、学習したポリシーが将来のサンプリングおよび参照ポリシーにフィードバックする反復的なアライメントダイナミクスを分析する。
我々の理論的な洞察は直接選好最適化にまで拡張され、我々が捉えた現象はより広範な選好アライメント手法に共通していることを示している。
- 参考スコア(独自算出の注目度): 65.67654005892469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard methods for aligning large language models with human preferences learn from pairwise comparisons among sampled candidate responses and regularize toward a reference policy. Despite their effectiveness, the effects of sampling and reference choices are poorly understood theoretically. We investigate these effects through Identity Preference Optimization, a widely used preference alignment framework, and show that proper instance-dependent sampling can yield stronger ranking guarantees, while skewed on-policy sampling can induce excessive concentration under structured preferences. We then analyze iterative alignment dynamics in which the learned policy feeds back into future sampling and reference policies, reflecting a common practice of model-generated preference data. We prove that these dynamics can exhibit persistent oscillations or entropy collapse for certain parameter choices, and characterize regimes that guarantee stability. Our theoretical insights extend to Direct Preference Optimization, indicating the phenomena we captured are common to a broader class of preference-alignment methods. Experiments on real-world preference data validate our findings.
- Abstract(参考訳): 大規模言語モデルと人間の嗜好を整合させる標準的な手法は、サンプルされた候補の反応のペア比較から学習し、基準ポリシーに向けて規則化する。
その効果にもかかわらず、サンプリングと参照の選択の効果は理論的にはよく理解されていない。
これらの効果を、広く使われている選好アライメントフレームワークであるIdentity Preference Optimizationを用いて検討し、適切なインスタンス依存サンプリングにより、より強力なランキング保証が得られることを示し、一方、スキュードオン・プライスサンプリングは、構造化された選好の下で過剰な濃度を誘導できることを示した。
次に、学習したポリシーが将来のサンプリングおよび参照ポリシーにフィードバックする反復的アライメントのダイナミクスを分析し、モデル生成の嗜好データの一般的な実践を反映する。
これらのダイナミクスがパラメータ選択に対して持続的な振動やエントロピー崩壊を示すことを示し、安定性を保証するレギュレーションを特徴付ける。
我々の理論的な洞察は直接選好最適化にまで拡張され、我々が捉えた現象はより広範な選好アライメント手法に共通していることを示している。
実世界の嗜好データに関する実験は、我々の発見を裏付けるものである。
関連論文リスト
- Beyond Single: A Data Selection Principle for LLM Alignment via Fine-Grained Preference Signals [46.58760908162995]
本研究では,大規模言語モデルのための新しい理論的基盤データ選択法を提案する。
直接選好最適化目標の損失境界を解析することにより,この戦略の最適性を証明する。
我々の戦略は、標準的な全体主義的嗜好とより強い託宣の両方に対して、10%以上の相対的な改善を達成する。
論文 参考訳(メタデータ) (2025-08-11T05:43:02Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。
本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。
対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文 参考訳(メタデータ) (2025-05-30T15:30:43Z) - Learning from negative feedback, or positive feedback or both [21.95277469346728]
ポジティブなフィードバックとネガティブなフィードバックから学習を分離する新しいアプローチを導入する。
重要な貢献は、ネガティブなフィードバックだけで安定した学習を示すことです。
論文 参考訳(メタデータ) (2024-10-05T14:04:03Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。