論文の概要: Marginal Utility for Planning in Continuous or Large Discrete Action
Spaces
- arxiv url: http://arxiv.org/abs/2006.06054v2
- Date: Wed, 17 Jun 2020 17:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 05:43:13.129322
- Title: Marginal Utility for Planning in Continuous or Large Discrete Action
Spaces
- Title(参考訳): 連続的あるいは大きな離散的行動空間における計画のための限界効用
- Authors: Zaheen Farraz Ahmad, Levi H. S. Lelis, Michael Bowling
- Abstract要約: サンプルベースのプランニングは、環境モデルからインテリジェントな振る舞いを生成するアルゴリズムの強力なファミリーである。
優れた候補行動を生成することは、サンプルベースのプランナーの成功に不可欠である。
限界効用で訓練されたジェネレータは、かなりのドメイン知識に基づいて構築された手書きスキームよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 34.83772836920873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sample-based planning is a powerful family of algorithms for generating
intelligent behavior from a model of the environment. Generating good candidate
actions is critical to the success of sample-based planners, particularly in
continuous or large action spaces. Typically, candidate action generation
exhausts the action space, uses domain knowledge, or more recently, involves
learning a stochastic policy to provide such search guidance. In this paper we
explore explicitly learning a candidate action generator by optimizing a novel
objective, marginal utility. The marginal utility of an action generator
measures the increase in value of an action over previously generated actions.
We validate our approach in both curling, a challenging stochastic domain with
continuous state and action spaces, and a location game with a discrete but
large action space. We show that a generator trained with the marginal utility
objective outperforms hand-coded schemes built on substantial domain knowledge,
trained stochastic policies, and other natural objectives for generating
actions for sampled-based planners.
- Abstract(参考訳): サンプルベースのプランニングは、環境モデルからインテリジェントな振る舞いを生成するアルゴリズムの強力なファミリーである。
優れた候補アクションを生成することは、サンプルベースのプランナー、特に連続的あるいは大きなアクションスペースの成功に不可欠である。
一般的に、候補アクション生成はアクション空間を浪費し、ドメイン知識を使い、最近ではそのような探索ガイダンスを提供するための確率的なポリシーを学ぶ。
本稿では,新しい目的,限界効用を最適化することで,候補アクションジェネレータを明示的に学習することを検討する。
アクションジェネレータの限界効用は、予め生成されたアクションに対するアクションの値の増加を測定する。
我々は、カーリング、連続状態とアクション空間を持つ挑戦的確率領域、離散的だが大きなアクション空間を持つ位置ゲームの両方において、我々のアプローチを検証する。
限界効用を訓練したジェネレータは、実際のドメイン知識、学習された確率ポリシー、およびサンプルベースプランナーのアクションを生成するためのその他の自然な目的に基づいて構築された手書きスキームよりも優れていることを示す。
関連論文リスト
- Guided Exploration for Efficient Relational Model Learning [20.853275384388805]
効率的な探索は、複雑で長期のタスクを持つ大規模環境で関係モデルを学習するために重要である。
ゴールリテラルバブリング(GLIB)は、新しいゴールの設定と計画によってランダムな探索を改善する。
バキングラージ(Baking-Large)は、多岐にわたる状態-作用空間と長距離タスクを持つ挑戦的ドメインである。
論文 参考訳(メタデータ) (2025-02-10T04:23:01Z) - Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。
アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文 参考訳(メタデータ) (2024-06-17T17:00:41Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Generative Planning for Temporally Coordinated Exploration in
Reinforcement Learning [29.811723497181486]
ジェネレーティブプランニング法(GPM)は、現在のステップだけでなく、将来のステップでもアクションを生成することができる。
GPMは、その生成した多段階計画を利用して、高価値領域への時間的協調探索を行うことができる。
論文 参考訳(メタデータ) (2022-01-24T15:53:32Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。