論文の概要: General Exploratory Bonus for Optimistic Exploration in RLHF
- arxiv url: http://arxiv.org/abs/2510.03269v1
- Date: Sat, 27 Sep 2025 04:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.626633
- Title: General Exploratory Bonus for Optimistic Exploration in RLHF
- Title(参考訳): RLHFにおける最適探査のための一般探査ボーナス
- Authors: Wendi Li, Changdae Oh, Yixuan Li,
- Abstract要約: 現在の定式化は、参照モデルの高確率領域に対する意図しない偏見探索である。
我々は,楽観主義の原理を確実に満足する理論的枠組みであるGEB(General Exploratory Bonus)を紹介する。
- 参考スコア(独自算出の注目度): 25.7176818393542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimistic exploration is central to improving sample efficiency in reinforcement learning with human feedback, yet existing exploratory bonus methods to incentivize exploration often fail to realize optimism. We provide a theoretical analysis showing that current formulations, under KL or $\alpha$-divergence regularization, unintentionally bias exploration toward high-probability regions of the reference model, thereby reinforcing conservative behavior instead of promoting discovery of uncertain regions. To address this pitfall, we introduce the General Exploratory Bonus (GEB), a novel theoretical framework that provably satisfies the optimism principle. GEB counteracts divergence-induced bias via reference-dependent reward regulation and unifies prior heuristic bonuses as special cases, while extending naturally across the full $\alpha$-divergence family. Empirically, GEB consistently outperforms baselines on alignment tasks across multiple divergence settings and large language model backbones. These results demonstrate that GEB offers both a principled and practical solution for optimistic exploration in RLHF.
- Abstract(参考訳): 最適探索は、人間のフィードバックによる強化学習におけるサンプル効率の改善の中心であるが、探索をインセンティブ化する既存の探索的ボーナス法は、最適化を実現するのに失敗することが多い。
KL または $\alpha$-divergence regularization の下での現在の定式化は、参照モデルの高確率領域に対する意図しない偏見探索であり、不確実な領域の発見を促進するのではなく、保守的な振る舞いを補強する。
この落とし穴に対処するために、我々は、楽観主義の原則を確実に満足する新しい理論的枠組みである一般探索ボーナス(GEB)を紹介した。
GEBは、基準に依存した報酬規制を通じて発散誘発バイアスに対処し、特別なケースとして事前ヒューリスティックボーナスを統一すると同時に、フル$\alpha$-divergenceファミリにわたって自然に拡張する。
経験的に、GEBは複数の分散設定と大きな言語モデルバックボーンをまたいだアライメントタスクのベースラインを一貫して上回ります。
これらの結果は、GABがRLHFにおける楽観的な探索のための原理的および実践的な解決策を提供することを示している。
関連論文リスト
- $\text{G}^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラ-GRPO(textG2$RPO)フレームワークを提案する。
また、複数の拡散スケールで計算された利点を集約し、サンプリング方向をより包括的かつ堅牢に評価するマルチグラニュラリティ・アドバンテージ統合モジュールも導入する。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Diversity-Incentivized Exploration for Versatile Reasoning [63.653348177250756]
textbfDi-textbf Incentivized Exploration for textbfVersatiltextbfE textbfReasoningを提案する。
論文 参考訳(メタデータ) (2025-09-30T13:11:46Z) - On Efficient Bayesian Exploration in Model-Based Reinforcement Learning [0.24578723416255752]
本研究では,本質的なモチベーションに対する既存の原理的情報理論的アプローチを検証し,強化学習におけるデータ効率探索の課題に対処する。
探索ボーナスは,環境のダイナミクスや報奨について十分な確証が得られたら,自然に疫学情報を得て,0に収束することを示す。
次に、モデルに基づく計画と情報理論的なボーナスを統合して、サンプル効率のよい深層探査を実現する、予測軌道サンプリングとベイズ探索(PTS-BE)という一般的なフレームワークの概要を示す。
論文 参考訳(メタデータ) (2025-07-03T14:03:47Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - DEIR: Efficient and Robust Exploration through
Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。
近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。
条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文 参考訳(メタデータ) (2023-04-21T06:39:38Z) - Exploration in Model-based Reinforcement Learning with Randomized Reward [40.87376174638752]
我々は、カーネル化線形レギュレータ(KNR)モデルの下では、報酬ランダム化が部分的最適化を保証することを示す。
さらに、我々の理論を一般化関数近似に拡張し、報酬ランダム化の条件を特定して、確実に効率的に探索する。
論文 参考訳(メタデータ) (2023-01-09T01:50:55Z) - The Benefits of Being Categorical Distributional: Uncertainty-aware Regularized Exploration in Reinforcement Learning [17.64056793687686]
分布RLの潜在的優位性は、導出分布整合エントロピー正則化に起因すると考えられる。
本研究は,RLにおける分布学習の導入による本質的なメリットを説明するために,本研究から新たな視点を提供する。
論文 参考訳(メタデータ) (2021-10-07T03:14:46Z) - Reinforced Imitation Learning by Free Energy Principle [2.9327503320877457]
強化学習(Reinforcement Learning, RL)は、特にスパース・リワード・セッティングにおいて、大量の探索を必要とする。
イミテーション・ラーニング(IL)は、専門家によるデモンストレーションから探究なしで学ぶことができる。
自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する
論文 参考訳(メタデータ) (2021-07-25T14:19:29Z) - Principled Exploration via Optimistic Bootstrapping and Backward
Induction [84.78836146128238]
最適ブートストラップ・バックワード誘導(OB2I)による深層強化学習(DRL)の原理的探索法を提案する。
OB2IはDRLの非パラメトリックブートストラップを介して汎用UCB結合を構築する。
提案する UCB-bonus と LSVI-UCB の理論的接続を線形に構築する。
論文 参考訳(メタデータ) (2021-05-13T01:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。