論文の概要: Imitate Optimal Policy: Prevail and Induce Action Collapse in Policy Gradient
- arxiv url: http://arxiv.org/abs/2509.02737v1
- Date: Tue, 02 Sep 2025 18:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.306519
- Title: Imitate Optimal Policy: Prevail and Induce Action Collapse in Policy Gradient
- Title(参考訳): Imitate Optimal Policy: 政策グラディエントにおける行動崩壊の優位性と誘導
- Authors: Zhongzhu Zhou, Yibo Yang, Ziyan Chen, Fengxiang Bie, Haojun Xia, Xiaoxia Wu, Robert Wu, Ben Athiwaratkun, Bernard Ghanem, Shuaiwen Leon Song,
- Abstract要約: ポリシー強化学習は、ディープニューラルネットワーク(DNN)を使用して、アクション選択層における可能性を計算するために使用される特徴表現の共有バックボーンを学習する。
特定の制約下では、我々はAction Collapse (AC)と呼ばれる神経崩壊に似た構造が出現する。
本稿では,動作選択層として合成ETFを付加した行動崩壊ポリシー勾配(ACPG)法を提案する。
- 参考スコア(独自算出の注目度): 61.440209025381016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient (PG) methods in reinforcement learning frequently utilize deep neural networks (DNNs) to learn a shared backbone of feature representations used to compute likelihoods in an action selection layer. Numerous studies have been conducted on the convergence and global optima of policy networks, but few have analyzed representational structures of those underlying networks. While training an optimal policy DNN, we observed that under certain constraints, a gentle structure resembling neural collapse, which we refer to as Action Collapse (AC), emerges. This suggests that 1) the state-action activations (i.e. last-layer features) sharing the same optimal actions collapse towards those optimal actions respective mean activations; 2) the variability of activations sharing the same optimal actions converges to zero; 3) the weights of action selection layer and the mean activations collapse to a simplex equiangular tight frame (ETF). Our early work showed those aforementioned constraints to be necessary for these observations. Since the collapsed ETF of optimal policy DNNs maximally separates the pair-wise angles of all actions in the state-action space, we naturally raise a question: can we learn an optimal policy using an ETF structure as a (fixed) target configuration in the action selection layer? Our analytical proof shows that learning activations with a fixed ETF as action selection layer naturally leads to the AC. We thus propose the Action Collapse Policy Gradient (ACPG) method, which accordingly affixes a synthetic ETF as our action selection layer. ACPG induces the policy DNN to produce such an ideal configuration in the action selection layer while remaining optimal. Our experiments across various OpenAI Gym environments demonstrate that our technique can be integrated into any discrete PG methods and lead to favorable reward improvements more quickly and robustly.
- Abstract(参考訳): 強化学習におけるポリシー勾配(PG)法は、ディープニューラルネットワーク(DNN)を用いて、アクション選択層における可能性を計算するために使用される特徴表現の共有バックボーンを学習する。
政策ネットワークの収束と大域的最適性について多くの研究がなされているが、それらの基盤となるネットワークの表現構造を分析することはほとんどない。
最適なポリシDNNのトレーニング中,特定の制約の下では,神経崩壊に似た緩やかな構造が出現し,その構造がAC(Action Collapse)と呼ばれる。
このことが示唆される。
1)同じ最適な行動を共有する状態-作用活性化(すなわち、最終層の特徴)は、それぞれの平均活性化に対して崩壊する。
2 同じ最適な行動を共有するアクティベーションの変動は、ゼロに収束する。
3) 動作選択層の重みと平均活性化は、単純な等角形状のタイトフレーム(ETF)に崩壊する。
我々の初期の研究は、上記の制約がこれらの観測に必要であることを示した。
最適ポリシーDNNのETFの崩壊は、状態-作用空間における全てのアクションの対角を極大に分離するので、我々は自然に、アクション選択層における(固定された)ターゲット構成としてETF構造を用いて最適なポリシーを学習できるかという疑問を提起する。
本研究では,動作選択層として固定ETFを用いた学習活性化が自然に交流に繋がることを示す。
そこで我々は,動作選択層として合成ETFを付加した行動崩壊ポリシー勾配(ACPG)法を提案する。
ACPGはポリシーDNNを誘導し、最適な状態を維持しながらアクション選択層にそのような理想的な構成を生成する。
様々なOpenAI Gym環境における実験により、我々の技術が任意の離散PGメソッドに統合され、より迅速かつ堅牢な報酬改善につながることが実証された。
関連論文リスト
- ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - Reinforcing Language Agents via Policy Optimization with Action Decomposition [36.984163245259936]
本稿では,アクションレベルからトークンレベルへの言語エージェントの最適化を提案する。
次に、アクション内トークンとアクション間トークンの両方に対するクレジット代入を統合するために、アクション分解(BAD)を用いてベルマンバックアップを導出する。
PPOアルゴリズムにおけるBADの実装, 行動分解による政策最適化(POAD)の導入
論文 参考訳(メタデータ) (2024-05-23T14:01:44Z) - Extremum-Seeking Action Selection for Accelerating Policy Optimization [18.162794442835413]
連続空間の制御のための強化学習は、典型的にはガウス分布のような高エントロピーポリシーを用いて局所的な探索と性能の最適化を推定する。
本稿では,ESC(Extremum-Seeking Control)に基づく適応制御を付加することで,モデルフリーなRL設定におけるアクション選択を改善することを提案する。
本手法は, 各種制御学習環境において, 学習効率を向上させるために, 標準方針最適化において容易に追加することができる。
論文 参考訳(メタデータ) (2024-04-02T02:39:17Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - DEFT: Diverse Ensembles for Fast Transfer in Reinforcement Learning [1.111018778205595]
高いマルチモーダル環境下での強化学習のための新しいアンサンブル法であるDEFT(Diverse Ensembles for Fast Transfer in RL)を提案する。
このアルゴリズムは、アンサンブルメンバーの訓練と、アンサンブルメンバーの合成(または微調整)という2つの主要なフェーズに分けられる。
論文 参考訳(メタデータ) (2022-09-26T04:35:57Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Evolutionary Action Selection for Gradient-based Policy Learning [6.282299638495976]
進化的アルゴリズム(EA)とDeep Reinforcement Learning(DRL)が最近組み合わされ、より優れたポリシー学習のための2つのソリューションの利点が統合された。
本稿では、EAとDRLの新たな組み合わせである進化的行動選択遅延Deep Deterministic Policy Gradient (EAS-TD3)を提案する。
論文 参考訳(メタデータ) (2022-01-12T03:31:21Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。