論文の概要: TRE: Encouraging Exploration in the Trust Region
- arxiv url: http://arxiv.org/abs/2602.03635v1
- Date: Tue, 03 Feb 2026 15:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.538965
- Title: TRE: Encouraging Exploration in the Trust Region
- Title(参考訳): TRE:トラスト領域における探索の促進
- Authors: Chao Huang, Yujing Lu, Quangang Li, Shenghe Wang, Yan Wang, Yueyang Zhang, Long Xia, Jiashu Zhao, Zhiyuan Sun, Daiting Shi, Tingwen Liu,
- Abstract要約: 信頼領域エントロピー(TRE)は、モデルの信頼領域内で厳密な探索を促進する手法である。
TREは、バニラ、標準エントロピー正規化、その他の探索ベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 25.91804793199702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entropy regularization is a standard technique in reinforcement learning (RL) to enhance exploration, yet it yields negligible effects or even degrades performance in Large Language Models (LLMs). We attribute this failure to the cumulative tail risk inherent to LLMs with massive vocabularies and long generation horizons. In such environments, standard global entropy maximization indiscriminately dilutes probability mass into the vast tail of invalid tokens rather than focusing on plausible candidates, thereby disrupting coherent reasoning. To address this, we propose Trust Region Entropy (TRE), a method that encourages exploration strictly within the model's trust region. Extensive experiments across mathematical reasoning (MATH), combinatorial search (Countdown), and preference alignment (HH) tasks demonstrate that TRE consistently outperforms vanilla PPO, standard entropy regularization, and other exploration baselines. Our code is available at https://github.com/WhyChaos/TRE-Encouraging-Exploration-in-the-Trust-Region.
- Abstract(参考訳): エントロピー正則化は、探索を強化するための強化学習(RL)の標準手法であるが、大きな言語モデル(LLM)の性能低下や無視できる効果をもたらす。
この失敗はLLMに固有の累積的尾のリスクに起因している。
このような環境では、標準的な大域エントロピーの最大化は、プラウシブルな候補に焦点をあてるのではなく、確率質量を無差別に無効なトークンの広大な尾に希釈し、コヒーレントな推論を妨害する。
そこで本研究では,信頼領域内を厳密に探索する手法である信頼領域エントロピー(TRE)を提案する。
数学的推論(MATH)、組合せ探索(Countdown)、選好アライメント(HH)タスクにわたる広範な実験は、TREがバニラPPO、標準エントロピー正規化、その他の探索ベースラインを一貫して上回ることを示した。
私たちのコードはhttps://github.com/WhyChaos/TRE-Encouraging-Exploration-in-the-Trust-Regionで公開されています。
関連論文リスト
- Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Is Pure Exploitation Sufficient in Exogenous MDPs with Linear Function Approximation? [10.117197604524465]
外因性MDP(Exo-MDPs)は、学習者の行動から独立して進化する入力からのみ不確実性が生じるシーケンシャルな意思決定をキャプチャする。
何十年にもわたって、欲求と搾取のみの手法がこれらの環境で驚くほどうまく機能しているという実証的な証拠にもかかわらず、理論は後れを取っている。
そこで我々はPure Exploitation Learning (PEL) を提案し,Exo-MDPにおけるエクスプロイトのみのアルゴリズムに対する最初の一般有限サンプル後悔境界を証明した。
論文 参考訳(メタデータ) (2026-01-28T15:23:50Z) - Distribution-Centric Policy Optimization Dominates Exploration-Exploitation Trade-off [34.80019950191864]
我々は、強化学習のためのtextbfdistribution中心の視点を導入する。
本稿では,分布レベルの正規化としてエントロピー規制を再構成する分散中心政策最適化(DCPO)を提案する。
全体として、DCPOはサンプルレベルの原則を分散レベルの原則に置き換え、理論的に基礎とフレキシブルなフレームワークを提供し、EEのトレードオフを強化します。
論文 参考訳(メタデータ) (2026-01-19T05:20:46Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Improving constraint-based discovery with robust propagation and reliable LLM priors [13.871152992680152]
高信頼度種子から縁を伝播する因果発見法であるMosaCDを提案する。
次に、最も信頼性の高いエッジを優先し、スケルトンに基づく発見手法と統合可能な、新しい信頼度低下伝搬戦略を適用する。
論文 参考訳(メタデータ) (2025-09-28T02:00:20Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - Non-isotropy Regularization for Proxy-based Deep Metric Learning [78.18860829585182]
本稿では,プロキシに基づくDeep Metric Learningのための非等方正則化(mathbbNIR$)を提案する。
これにより、プロキシの周囲のサンプルの非等方分布を明示的に誘導して最適化することが可能になる。
実験では、競争力と最先端のパフォーマンスを達成しながら、$mathbbNIR$の一貫性のある一般化の利点を強調している。
論文 参考訳(メタデータ) (2022-03-16T11:13:20Z) - GalilAI: Out-of-Task Distribution Detection using Causal Active
Experimentation for Safe Transfer RL [11.058960131490903]
アウト・オブ・ディストリビューション(OOD)検出は教師あり学習においてよく研究されているトピックである。
本稿では,OOTD(Out-of-Task Distribution)検出という新しいタスクを提案する。
ガリレオ・ガリレイ(Galileo Galilei)に敬意を表して、我々の手法をガリライ(GalilAI)と名付けた。
論文 参考訳(メタデータ) (2021-10-29T01:45:56Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。