論文の概要: Local Guidance, Global Impact: Gaussian-Reshaped Trust Region Unlocks Behavior Transitions
- arxiv url: http://arxiv.org/abs/2606.03382v1
- Date: Tue, 02 Jun 2026 09:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.903188
- Title: Local Guidance, Global Impact: Gaussian-Reshaped Trust Region Unlocks Behavior Transitions
- Title(参考訳): 地域誘導と世界的影響:ガウシアン・リフォーム・トラスト・リージョンは行動遷移を解き放つ
- Authors: Bingxu Liu, Jiashun Liu, Johan Obando-Ceron, Hao Wang, Runze Liu, Pablo Samuel Castro, Aaron Courville, Ling Pan,
- Abstract要約: 本稿では,PPO (Proximal Policy Optimization) が連続的・非定常的環境において苦戦していることを示す。
本稿では,ガウスカーネルを用いて信頼領域を再設定するガウス信頼地域政策最適化(GTR)を提案する。
GTRはアーキテクチャに依存しず、ゲーム全体、シミュレーションロボット制御、オープンワールド探索、言語モデルポストトレーニングなど、強力なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 32.96009566123147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Proximal Policy Optimization (PPO) demonstrates strong performance in stationary settings, we show that its standard optimization paradigm struggles in continual and non-stationary environments. The failure does not stem from insufficient model capacity or overly restrictive clipping. Instead, PPO performs persistent, directionally inefficient local updates, which indicates a lack of geometry-aware guidance for accumulating meaningful behavioral change and ultimately hindering transitions toward new behavior patterns. Although divergence-based regularization introduces partial geometric awareness, its monotonically increasing penalties implicitly discourage large policy deviations, even when such shifts are necessary for effective adaptation. To address this limitation, we propose Gaussian Trust Region Policy Optimization (GTR), which reshapes the trust region using a Gaussian kernel. The resulting constraint is bounded and non-monotonic, providing strong local stability while progressively relaxing under sustained high-advantage updates. To further improve robustness, we introduce a Mixture Gaussian Anchor that adapts to recent policy trajectories, reducing variance induced by stale references. GTR is architecture-agnostic and achieves strong performance across games, simulated robotic control, open-world exploration, and language model post-training. These results demonstrate that geometry-aware trust-region design can be a promising direction for robust reinforcement learning in complex non-stationary environments. Our code is available at https://anonymous.4open.science/r/GTR_demo/README.md.
- Abstract(参考訳): Proximal Policy Optimization (PPO) は、定常環境において高い性能を示すが、その標準最適化パラダイムは、連続的および非定常環境において困難であることを示す。
この失敗は、モデルキャパシティの不足や過度に制限されたクリップによるものではない。
これは、意味のある行動変化を蓄積し、最終的に新しい行動パターンへの遷移を妨げる幾何学的なガイダンスが欠如していることを示している。
ばらつきに基づく正規化は、部分的な幾何学的認識をもたらすが、その単調に増加する罰則は、たとえそのようなシフトが効果的な適応に必要であったとしても、大きな政策偏差を暗黙的に阻止する。
この制限に対処するため,ガウスカーネルを用いて信頼領域を再設定するガウス信頼地域政策最適化(GTR)を提案する。
結果として生じる制約は束縛され、非単調であり、強い局所安定性を提供しながら、持続的な高アドバンテージ更新の下で徐々に緩和する。
さらにロバスト性を向上させるため,近年の政策軌道に適応する混合ガウスアンアンカーを導入し,古い基準による分散を低減した。
GTRはアーキテクチャに依存しず、ゲーム全体、シミュレーションロボット制御、オープンワールド探索、言語モデルポストトレーニングなど、強力なパフォーマンスを実現している。
これらの結果から, 複雑な非定常環境下での強靭な強化学習において, 幾何認識型信頼領域設計が有望な方向であることが示唆された。
私たちのコードはhttps://anonymous.4open.science/r/GTR_demo/README.mdで公開されています。
関連論文リスト
- Lagrangian Perturbation Diffusion Steering: Latent Reinforcement Learning for Generative Policies [5.170807667319543]
復号化前にコンパクトな雑音空間摂動を学習することにより、凍結生成ポリシーを改善する軽量適応法を提案する。
RoboMimic操作、OpenAI Gymロコモーション、Adroit dexterous操作ベンチマークの他、LP-DSはサンプル効率、成功、リターンを改善しながら、制約のないノイズ空間ステアリングよりも高いアクション空間エントロピーを維持している。
論文 参考訳(メタデータ) (2026-05-31T10:40:28Z) - Power Reinforcement Post-Training of Text-to-Image Models with Super-Linear Advantage Shaping [66.25536973294726]
テキスト・トゥ・イメージ(T2I)モデルのポストトレーニング手法はハッキングに報いる傾向がある。
SLAS(Super-Linear Advantage Shaping)は、地方政策の分野を再考する。
SLASは、DanceGRPOベースラインを複数のバックボーンとベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-11T17:59:25Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control [33.03635235189535]
動作合成を反復的最適化に変換する時間非条件フレームワークGeCOについて紹介する。
テスト時間推論は、単純な状態に対して収束開始早期に基づいて計算を割り当てる適応的なプロセスとなり、難しい状態に対してはより長く精製する。
我々は,GeCOを標準シミュレーションベンチマークで検証し,pi0シリーズのVision-Language-Action(VLA)モデルにシームレスなスケーリングを示す。
論文 参考訳(メタデータ) (2026-03-18T15:27:17Z) - Geometry of Drifting MDPs with Path-Integral Stability Certificates [14.721539799090904]
実世界の強化学習は、しばしば非定常的であり、報酬と力学は最適な行動において急激なスイッチを起動し、加速し、振動し、引き起こす。
環境を相異なるホモトピーパスとしてモデル化し、最適なベルマン固定点の誘導運動を追跡することにより、非定常割引マルコフ決定過程(MDPs)の幾何学的ビューを得る。
これは、累積ドリフト、加速度/振動、アクションギャップによって引き起こされる非滑らかさという、内在的な複雑さの、長さ-曲率-キンクのシグネチャをもたらす。
論文 参考訳(メタデータ) (2026-01-29T17:03:23Z) - Signal-Adaptive Trust Regions for Gradient-Free Optimization of Recurrent Spiking Neural Networks [16.009596458274952]
推定信号エネルギーによって正規化されるKL分散を束縛することで相対的変化を制約する分布更新則を提案する。
本研究では,RSNN最適化に強い経験的性能を示したベルヌーイ接続分布に対するSATRのインスタンス化を行う。
SATRを大規模に実用化するために、二進スパイクと二進重みのビットセット実装を導入する。
論文 参考訳(メタデータ) (2026-01-29T11:34:49Z) - ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization [6.716883192613149]
textbfElastic textbfTrust textbfETRを提案する。
ETRはGRPOを一貫して上回り、より優れた精度を実現し、政策エントロピー劣化を効果的に緩和する。
論文 参考訳(メタデータ) (2026-01-07T09:19:53Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning [79.59753528758361]
両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。
私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。
以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータにより,二足歩行ヒューマノイドVLAの性能を効率的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-09-15T12:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。