論文の概要: Theoretical guarantees on the best-of-n alignment policy
- arxiv url: http://arxiv.org/abs/2401.01879v2
- Date: Fri, 31 Jan 2025 15:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:59:30.137634
- Title: Theoretical guarantees on the best-of-n alignment policy
- Title(参考訳): ベスト・オブ・nアライメント政策に関する理論的保証
- Authors: Ahmad Beirami, Alekh Agarwal, Jonathan Berant, Alexander D'Amour, Jacob Eisenstein, Chirag Nagpal, Ananda Theertha Suresh,
- Abstract要約: 我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
また、KLの発散に対する新しい推定器を提案し、それが密近似をもたらすことを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
- 参考スコア(独自算出の注目度): 110.21094183592358
- License:
- Abstract: A simple and effective method for the inference-time alignment of generative models is the best-of-$n$ policy, where $n$ samples are drawn from a reference policy, ranked based on a reward function, and the highest ranking one is selected. A commonly used analytical expression in the literature claims that the KL divergence between the best-of-$n$ policy and the reference policy is equal to $\log (n) - (n-1)/n.$ We disprove the validity of this claim, and show that it is an upper bound on the actual KL divergence. We also explore the tightness of this upper bound in different regimes, and propose a new estimator for the KL divergence and empirically show that it provides a tight approximation. We also show that the win rate of the best-of-$n$ policy against the reference policy is upper bounded by $n/(n+1)$ and derive bounds on the tightness of this characterization. We conclude with analyzing the tradeoffs between win rate and KL divergence of the best-of-$n$ alignment policy, which demonstrate that very good tradeoffs are achievable with $n < 1000$.
- Abstract(参考訳): 生成モデルの推論時間アライメントのための単純で効果的な方法は、$n$サンプルが参照ポリシーから引き出され、報酬関数に基づいてランク付けされ、最も高いランク付けが選択される、$n$ポリシーである。
文献でよく使われる分析式は、$n$の最良のポリシーと参照ポリシーの間のKLのばらつきが$\log (n) - (n-1)/nに等しいと主張している。
$ このクレームの妥当性を否定し、それが実際のKL発散の上限であることを示す。
また,この上界の密接度を異なる条件で検討し,KLの発散に対する新しい推定法を提案し,その近似性を示すことを実証的に示す。
また、参照ポリシーに対する最良のn$ポリシーの勝利率は、$n/(n+1)$で上界であり、この特徴付けの厳密性に基づいて導出されることを示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違を分析することで、非常に良いトレードオフが$n < 1000$で達成可能であることを示す。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Information Theoretic Guarantees For Policy Alignment In Large Language Models [19.315342870604113]
参照ポリシーの下での報酬がガウス以下の尾を持つ場合、$sqrtmathsfKL$情報理論上界が成り立つことを示す。
また、$n$ポリシーの最高値として、$mathsfKL$上界が任意の$f$-divergenceに対して得られることを証明します。
論文 参考訳(メタデータ) (2024-06-09T18:41:50Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Asymptotics of Language Model Alignment [27.37118975691123]
最適KL制約RL解が大きな偏差原理を満たすことを示す。
また、報酬のスケールした累積物の成長速度は、適切なレニイクロスエントロピーによって特徴づけられることを示した。
論文 参考訳(メタデータ) (2024-04-02T08:40:07Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。
我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。
V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - On Gap-dependent Bounds for Offline Reinforcement Learning [40.92345387517103]
本稿では,オフライン強化学習におけるギャップ依存型サンプル複雑性の系統的研究を行う。
最適政策カバレッジの仮定の下では、最適な$Q$-函数に正の準最適差がある場合、その値は$Oleft(frac1epsilonright)$に改善することができる。
最適政策の訪問確率が正である状態に対して,行動政策の訪問確率が一様に低い場合,最適政策を特定する際のサンプルの複雑さは$frac1epsilon$とは無関係である。
論文 参考訳(メタデータ) (2022-06-01T01:44:12Z) - Differentiable Bandit Exploration [38.81737411000074]
我々は、$mathcalP$からサンプルを使って未知のディストリビューション$mathcalP$についてそのようなポリシーを学ぶ。
我々のアプローチはメタラーニングの形式であり、その形式について強い仮定をすることなく$mathcalP$のプロパティを利用する。
論文 参考訳(メタデータ) (2020-02-17T05:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。