論文の概要: Theoretical guarantees on the best-of-n alignment policy
- arxiv url: http://arxiv.org/abs/2401.01879v1
- Date: Wed, 3 Jan 2024 18:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:24:45.766056
- Title: Theoretical guarantees on the best-of-n alignment policy
- Title(参考訳): ベスト・オブ・nアライメント政策に関する理論的保証
- Authors: Ahmad Beirami and Alekh Agarwal and Jonathan Berant and Alexander
D'Amour, and Jacob Eisenstein and Chirag Nagpal and Ananda Theertha Suresh
- Abstract要約: 基本方針と最良$n$ポリシーのKL分散は、$log (n) - (n-1)/n.$と等しいことを示す。
KLの発散に対する新しい推定器を提案し、いくつかの例を通して厳密な近似を与えることを実証的に示す。
- 参考スコア(独自算出の注目度): 110.21094183592358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A simple and effective method for the alignment of generative models is the
best-of-$n$ policy, where $n$ samples are drawn from a base policy, and ranked
based on a reward function, and the highest ranking one is selected. A commonly
used analytical expression in the literature claims that the KL divergence
between the best-of-$n$ policy and the base policy is equal to $\log (n) -
(n-1)/n.$ We disprove the validity of this claim, and show that it is an upper
bound on the actual KL divergence. We also explore the tightness of this upper
bound in different regimes. Finally, we propose a new estimator for the KL
divergence and empirically show that it provides a tight approximation through
a few examples.
- Abstract(参考訳): 生成モデルのアライメントをシンプルかつ効果的に行う方法は、n$サンプルを基本ポリシーから抽出し、報酬関数に基づいてランク付けし、最高ランクのものを選択できる、ベスト・オブ・n$ポリシーである。
文献でよく用いられる分析式は、KL が最良$n$ポリシーと基本ポリシーの間の分岐は$\log (n)(n-1)/n であると主張している。
$ この主張の妥当性を否定し、それが実際のKL発散の上限であることを示す。
我々はまた、この上限の厳密さを異なる体制で探求する。
最後に,klの発散に対する新しい推定器を提案し,いくつかの例を通じて密接な近似を与えることを実証的に示す。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Information Theoretic Guarantees For Policy Alignment In Large Language Models [19.315342870604113]
参照ポリシーの下での報酬がガウス以下の尾を持つ場合、$sqrtmathsfKL$情報理論上界が成り立つことを示す。
また、$n$ポリシーの最高値として、$mathsfKL$上界が任意の$f$-divergenceに対して得られることを証明します。
論文 参考訳(メタデータ) (2024-06-09T18:41:50Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Asymptotics of Language Model Alignment [27.37118975691123]
最適KL制約RL解が大きな偏差原理を満たすことを示す。
また、報酬のスケールした累積物の成長速度は、適切なレニイクロスエントロピーによって特徴づけられることを示した。
論文 参考訳(メタデータ) (2024-04-02T08:40:07Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。
我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。
V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - On Gap-dependent Bounds for Offline Reinforcement Learning [40.92345387517103]
本稿では,オフライン強化学習におけるギャップ依存型サンプル複雑性の系統的研究を行う。
最適政策カバレッジの仮定の下では、最適な$Q$-函数に正の準最適差がある場合、その値は$Oleft(frac1epsilonright)$に改善することができる。
最適政策の訪問確率が正である状態に対して,行動政策の訪問確率が一様に低い場合,最適政策を特定する際のサンプルの複雑さは$frac1epsilon$とは無関係である。
論文 参考訳(メタデータ) (2022-06-01T01:44:12Z) - Differentiable Bandit Exploration [38.81737411000074]
我々は、$mathcalP$からサンプルを使って未知のディストリビューション$mathcalP$についてそのようなポリシーを学ぶ。
我々のアプローチはメタラーニングの形式であり、その形式について強い仮定をすることなく$mathcalP$のプロパティを利用する。
論文 参考訳(メタデータ) (2020-02-17T05:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。