論文の概要: Per-Domain Generalizing Policies: On Learning Efficient and Robust Q-Value Functions (Extended Version with Technical Appendix)
- arxiv url: http://arxiv.org/abs/2603.17544v1
- Date: Wed, 18 Mar 2026 09:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.62108
- Title: Per-Domain Generalizing Policies: On Learning Efficient and Robust Q-Value Functions (Extended Version with Technical Appendix)
- Title(参考訳): ドメインごとの一般化ポリシ: 学習効率とロバストなQ値関数(テクニカルアペンディクス付き拡張バージョン)
- Authors: Nicola J. Müller, Moritz Oster, Isabel Valera, Jörg Hoffmann, Timo P. Gros,
- Abstract要約: 状態値関数の代わりにQ値関数を学習することを提唱する。
ヴァニラ指導によるQ値の学習は、取られた行動と教師が取らなかった行動とを区別することが学ばないため、不十分である。
我々は、この区別を強制する正規化項を用いてこの問題に対処し、10の領域にわたる状態値ポリシーを一貫して上回るQ値ポリシーを生み出します。
- 参考スコア(独自算出の注目度): 12.618150788040616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning per-domain generalizing policies is a key challenge in learning for planning. Standard approaches learn state-value functions represented as graph neural networks using supervised learning on optimal plans generated by a teacher planner. In this work, we advocate for learning Q-value functions instead. Such policies are drastically cheaper to evaluate for a given state, as they need to process only the current state rather than every successor. Surprisingly, vanilla supervised learning of Q-values performs poorly as it does not learn to distinguish between the actions taken and those not taken by the teacher. We address this by using regularization terms that enforce this distinction, resulting in Q-value policies that consistently outperform state-value policies across a range of 10 domains and are competitive with the planner LAMA-first.
- Abstract(参考訳): ドメインごとの一般化ポリシーの学習は、計画を学ぶ上で重要な課題である。
教師プランナーが生成する最適計画に関する教師あり学習を用いて,グラフニューラルネットワークとして表される状態値関数を学習する。
そこで本研究では,Q値関数の学習を提唱する。
このようなポリシーは、すべての後継者ではなく、現在の状態のみを処理する必要があるため、特定の状態を評価するために大幅に安価である。
意外なことに、バニラ指導によるQ値の学習は、取られた行動と教師が取らなかった行動とを区別することが学ばないため、不十分である。
我々は、この区別を強制する正規化用語を用いてこの問題に対処し、結果として、10の領域にわたる状態値ポリシーを一貫して上回り、プランナーのLAMA-firstと競合するQ値ポリシーを実現した。
関連論文リスト
- Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - General Policy Evaluation and Improvement by Learning to Identify Few
But Crucial States [12.059140532198064]
政策評価と改善の学習は強化学習の中核的な問題である。
最近検討された競合の代替手段は、多くのポリシーで単一の値関数を学ぶことである。
NNポリシを評価するために訓練された値関数も,ポリシアーキテクチャの変更に不変であることを示す。
論文 参考訳(メタデータ) (2022-07-04T16:34:53Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - SelfAugment: Automatic Augmentation Policies for Self-Supervised
Learning [98.2036247050674]
自己教師付き画像回転タスクによる学習表現の評価は、教師付き画像回転タスクの標準セットと高い相関性を示す。
教師付き評価を用いることなく、自動かつ効率的に拡張ポリシーを選択するアルゴリズム(SelfAugment)を提供する。
論文 参考訳(メタデータ) (2020-09-16T14:49:03Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。