論文の概要: Beyond Fixed Morphologies: Learning Graph Policies with Trust Region Compensation in Variable Action Spaces
- arxiv url: http://arxiv.org/abs/2508.14102v1
- Date: Sat, 16 Aug 2025 17:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.188885
- Title: Beyond Fixed Morphologies: Learning Graph Policies with Trust Region Compensation in Variable Action Spaces
- Title(参考訳): 固定形態を超えて - 可変アクション空間における信頼領域補償によるグラフポリシの学習
- Authors: Thomas Gallien,
- Abstract要約: 本稿では、信頼地域政策最適化(TRPO)とその広く使われている一階近似、PPOに焦点を当てる。
目的は、KL分割や政策クリッピングの罰則によって課せられる制約の下で、様々な行動空間の次元が最適化の景観にどのように影響するかを実証することである。
The empirical evaluation under morphological variation was performed using the Gymnasium Swimmer environment。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trust region-based optimization methods have become foundational reinforcement learning algorithms that offer stability and strong empirical performance in continuous control tasks. Growing interest in scalable and reusable control policies translate also in a demand for morphological generalization, the ability of control policies to cope with different kinematic structures. Graph-based policy architectures provide a natural and effective mechanism to encode such structural differences. However, while these architectures accommodate variable morphologies, the behavior of trust region methods under varying action space dimensionality remains poorly understood. To this end, we conduct a theoretical analysis of trust region-based policy optimization methods, focusing on both Trust Region Policy Optimization (TRPO) and its widely used first-order approximation, Proximal Policy Optimization (PPO). The goal is to demonstrate how varying action space dimensionality influence the optimization landscape, particularly under the constraints imposed by KL-divergence or policy clipping penalties. Complementing the theoretical insights, an empirical evaluation under morphological variation is carried out using the Gymnasium Swimmer environment. This benchmark offers a systematically controlled setting for varying the kinematic structure without altering the underlying task, making it particularly well-suited to study morphological generalization.
- Abstract(参考訳): 信頼領域に基づく最適化手法は、連続制御タスクにおける安定性と強力な経験的性能を提供する基礎的な強化学習アルゴリズムとなっている。
スケーラブルで再利用可能な制御ポリシーへの関心が高まったことは、モルフォロジーの一般化、異なるキネマティック構造に対処する制御ポリシーの能力の需要にも変換される。
グラフベースのポリシーアーキテクチャは、このような構造的な違いをエンコードする自然な、効果的なメカニズムを提供する。
しかしながら、これらのアーキテクチャは可変形態を許容するが、行動空間次元の異なる信頼領域法の挙動は未だよく理解されていない。
そこで我々は,信頼地域政策最適化 (TRPO) と,その広く使用されている一階近似,PPO (Proximal Policy Optimization) に焦点をあてて,信頼地域政策最適化手法の理論的解析を行う。
目的は、KL分割や政策クリッピングの罰則によって課せられる制約の下で、様々な行動空間の次元が最適化の景観にどのように影響するかを実証することである。
理論的な知見を補完し, 体型変化下での実験的評価を, 体育館のスイマー環境を用いて行った。
このベンチマークは、基礎となるタスクを変更することなく、キネマティック構造を変化させるための体系的に制御された設定を提供し、特に形態的一般化の研究に適している。
関連論文リスト
- Functional Acceleration for Policy Mirror Descent [42.08953240415424]
本稿では,PMDアルゴリズムの一般系に関数加速度を適用した。
機能的経路をとることで、我々のアプローチは政策パラメトリゼーションとは無関係になり、大規模最適化にも適用できる。
論文 参考訳(メタデータ) (2024-07-23T16:04:55Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文 参考訳(メタデータ) (2022-03-24T21:41:13Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。