論文の概要: Learning General Policies with Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2512.19366v1
- Date: Mon, 22 Dec 2025 13:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.763958
- Title: Learning General Policies with Policy Gradient Methods
- Title(参考訳): 政策グラディエント手法による一般政策の学習
- Authors: Simon Ståhlberg, Blai Bonet, Hector Geffner,
- Abstract要約: 特定のドメインの全インスタンスを一般化する証明可能な正しいポリシーは、メソッドを使って学習されている。
この研究の目的は、これらの2つの研究スレッドをまとめて、(深い)強化学習アプローチが利用できる条件を照らすことである。
従来およびディープラーニングアプローチから学んだ教訓を引き合いに出し、それらを便利な方法で拡張します。
- 参考スコア(独自算出の注目度): 11.393603788068775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning methods have delivered remarkable results in a number of settings, generalization, i.e., the ability to produce policies that generalize in a reliable and systematic way, has remained a challenge. The problem of generalization has been addressed formally in classical planning where provable correct policies that generalize over all instances of a given domain have been learned using combinatorial methods. The aim of this work is to bring these two research threads together to illuminate the conditions under which (deep) reinforcement learning approaches, and in particular, policy optimization methods, can be used to learn policies that generalize like combinatorial methods do. We draw on lessons learned from previous combinatorial and deep learning approaches, and extend them in a convenient way. From the former, we model policies as state transition classifiers, as (ground) actions are not general and change from instance to instance. From the latter, we use graph neural networks (GNNs) adapted to deal with relational structures for representing value functions over planning states, and in our case, policies. With these ingredients in place, we find that actor-critic methods can be used to learn policies that generalize almost as well as those obtained using combinatorial approaches while avoiding the scalability bottleneck and the use of feature pools. Moreover, the limitations of the DRL methods on the benchmarks considered have little to do with deep learning or reinforcement learning algorithms, and result from the well-understood expressive limitations of GNNs, and the tradeoff between optimality and generalization (general policies cannot be optimal in some domains). Both of these limitations are addressed without changing the basic DRL methods by adding derived predicates and an alternative cost structure to optimize.
- Abstract(参考訳): 強化学習法は多くの設定において顕著な成果を上げてきたが、一般化、すなわち、信頼性と体系的な方法で一般化する政策を創出する能力は、依然として課題である。
一般化の問題は、与えられた領域のすべてのインスタンスを一般化する証明可能な正しいポリシーが組合せ法を用いて学習された古典的な計画において公式に解決されている。
本研究の目的は、これらの2つの研究スレッドをまとめて、(深い)強化学習アプローチ、特に、統合的手法のように一般化されたポリシーを学ぶために、ポリシー最適化手法を利用できる条件を照らすことである。
我々は,従来の組合せ学習と深層学習のアプローチから学んだ教訓を引き合いに出し,それらを便利な方法で拡張する。
前者から、(基底)アクションは一般的なものではなく、インスタンスからインスタンスへ変更されるため、ポリシーを状態遷移分類子としてモデル化します。
後者では、計画状態よりも値関数を表現するために、リレーショナル構造を扱うために、グラフニューラルネットワーク(GNN)を使用します。
これらの要素が組み合わさって、アクター批判的手法は、スケーラビリティのボトルネックや機能プールの使用を回避しつつ、組合せ的アプローチを用いて得られるものと同様に、ほぼ一般化したポリシーを学ぶのに利用できる。
さらに、ベンチマーク上のDRL手法の限界は、ディープラーニングや強化学習アルゴリズムとはほとんど関係がなく、GNNのよく理解された表現的制限と、最適性と一般化のトレードオフ(一般政策は、いくつかの領域では最適ではない)の結果である。
これらの制限は、導出した述語と最適化のための代替コスト構造を追加することで、基本的なDRL法を変更することなく対処される。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Generalized Policies for Fully Observable Non-Deterministic Planning Domains [12.730070122798459]
一般的な政策は、計画問題の大規模なファミリーを解決するためのリアクティブ戦略を表す。
我々は、完全に観察可能な非決定論的領域を越えて、定式化と結果の一般的なポリシー学習方法を拡張する。
論文 参考訳(メタデータ) (2024-04-03T06:25:42Z) - Policy Optimization over General State and Action Spaces [3.722665817361884]
一般的な状態や行動空間に対する強化学習(RL)問題は非常に難しい。
まず,最近開発された一般状態と行動空間を扱うために,政策ミラー降下法をかなり一般化した手法を提案する。
本手法に関数近似を組み込む新しい手法を導入し、明示的なポリシーパラメータ化を全く必要としない。
論文 参考訳(メタデータ) (2022-11-30T03:44:44Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。