論文の概要: Demystifying the unreasonable effectiveness of online alignment methods
- arxiv url: http://arxiv.org/abs/2604.17207v1
- Date: Sun, 19 Apr 2026 02:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.389826
- Title: Demystifying the unreasonable effectiveness of online alignment methods
- Title(参考訳): オンラインアライメント手法の理不尽な有効性について
- Authors: Enoch Hyunwook Kang,
- Abstract要約: 我々は、KL規則化された後悔は、学習の統計的コストと、軟化学習政策によって引き起こされる探索的ランダム化とを混同していると論じる。
オンラインRLHFやオンラインDPOを含む,標準的な欲求的なオンラインアライメント手法が,累積的後悔の絶え間ない効率性を実現することを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Iterative alignment methods based on purely greedy updates are remarkably effective in practice, yet existing theoretical guarantees of \(O(\log T)\) KL-regularized regret can seem pessimistic relative to their empirical performance. In this paper, we argue that this mismatch arises from the regret criterion itself: KL-regularized regret conflates the statistical cost of learning with the exploratory randomization induced by the softened training policy. To separate these effects, we study the traditional temperature-zero regret criterion, which evaluates only the top-ranked response at inference time. Under this decision-centric notion of performance, we prove that standard greedy online alignment methods, including online RLHF and online DPO, achieve constant \((O(1))\) cumulative regret. By isolating the cost of identifying the best response from the stochasticity induced by regularization, our results provide a sharper theoretical explanation for the practical superb efficiency of greedy alignment.
- Abstract(参考訳): 純粋に欲求的な更新に基づく反復的アライメント法は、実際は極めて効果的であるが、既存の理論的保証である \(O(\log T)\) KL-正規化後悔は、経験的性能に対して悲観的であるように見える。
本稿では,このミスマッチが後悔の基準そのものから生じることを論じる。KL規則化された後悔は,軟化学習政策によって引き起こされる探索的ランダム化と,学習の統計的コストを混同する。
これらの効果を分離するために, 従来の温度ゼロの後悔基準について検討し, 推論時の上位反応のみを評価する。
本稿では,オンラインRLHF やオンライン DPO などのオンラインアライメントの標準的手法が,この決定を主眼とした性能概念を実証する。
正規化によって引き起こされる確率性から最良の応答を識別するコストを分離することにより, グリーディアライメントの実用的スーパーブ効率に関するよりシャープな理論的説明を提供する。
関連論文リスト
- PAC-Bayesian Reward-Certified Outcome Weighted Learning [0.0]
結果重み付け学習(OWL)による最適個別化処理規則(ITR)の推定は、しばしば真に潜伏したユーティリティに対してうるさいあるいは楽観的なプロキシである観察された報酬に依存する。
PAC-Bayesian Reward-Certified Outcome Weighted Learning (PROWL)を提案する。
一方的な不確実性証明が与えられた場合、PROWLは真の期待値に基づいて、保守的な報酬と厳密なポリシーに依存した下限を構築する。
論文 参考訳(メタデータ) (2026-04-02T12:08:56Z) - Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning [31.629261193485053]
大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。
既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。
本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T08:40:06Z) - Online Policy Learning via a Self-Normalized Maximal Inequality [4.906641452356241]
マルティンゲール経験過程における自己正規化最大不等式を開発した。
逐次更新と標準複雑性とマージン条件で組み合わせると、推定器は高速収束率が得られることを示す。
論文 参考訳(メタデータ) (2025-10-17T09:53:42Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Reward Certification for Policy Smoothed Reinforcement Learning [14.804252729195513]
強化学習(Reinforcement Learning, RL)は、安全クリティカルな分野において大きな成功を収めた。
近年の研究では、その堅牢性を高めるために「平滑な政策」を導入している。
報酬の総額を認定する証明可能な保証を確立することは依然として困難である。
論文 参考訳(メタデータ) (2023-12-11T15:07:58Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。