論文の概要: Potential Field Guided Actor-Critic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.06923v1
- Date: Fri, 12 Jun 2020 03:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:15:16.654469
- Title: Potential Field Guided Actor-Critic Reinforcement Learning
- Title(参考訳): ポテンシャル場誘導アクター・クリティカル強化学習
- Authors: Weiya Ren
- Abstract要約: 我々は、報酬に基づく批評家と潜在的フィールドに基づく批評家を組み合わせて、潜在的フィールド誘導型アクター批判強化学習アプローチ(アクター批判-2)を定式化する。
これは、モデルに基づく勾配と、政策改善におけるモデルフリー勾配の組み合わせと見なすことができる。
プレデター・プレイゲームの実験では,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the problem of actor-critic reinforcement
learning. Firstly, we extend the actor-critic architecture to actor-critic-N
architecture by introducing more critics beyond rewards. Secondly, we combine
the reward-based critic with a potential-field-based critic to formulate the
proposed potential field guided actor-critic reinforcement learning approach
(actor-critic-2). This can be seen as a combination of the model-based
gradients and the model-free gradients in policy improvement. State with large
potential field often contains a strong prior information, such as pointing to
the target at a long distance or avoiding collision by the side of an obstacle.
In this situation, we should trust potential-field-based critic more as policy
evaluation to accelerate policy improvement, where action policy tends to be
guided. For example, in practical application, learning to avoid obstacles
should be guided rather than learned by trial and error. State with small
potential filed is often lack of information, for example, at the local minimum
point or around the moving target. At this time, we should trust reward-based
critic as policy evaluation more to evaluate the long-term return. In this
case, action policy tends to explore. In addition, potential field evaluation
can be combined with planning to estimate a better state value function. In
this way, reward design can focus more on the final stage of reward, rather
than reward shaping or phased reward. Furthermore, potential field evaluation
can make up for the lack of communication in multi-agent cooperation problem,
i.e., multi-agent each has a reward-based critic and a relative unified
potential-field-based critic with prior information. Thirdly, simplified
experiments on predator-prey game demonstrate the effectiveness of the proposed
approach.
- Abstract(参考訳): 本稿では,アクタ-クリティック強化学習の問題点について考察する。
まず、報酬以上の批評家を導入することで、アクター批判アーキテクチャをアクター批判アーキテクチャに拡張する。
第2に、報酬に基づく批評家と潜在的フィールドに基づく批評家を組み合わせて、潜在的フィールド誘導型アクター批判強化学習アプローチ(アクター批判-2)を定式化する。
これは、モデルベース勾配と、ポリシー改善におけるモデルフリー勾配の組み合わせと見なすことができる。
大きなポテンシャル場を持つ状態は、しばしば、目標を遠くに向けたり、障害物の側面による衝突を避けるといった、強い事前情報を含んでいる。
この状況では、政策政策を指導する傾向にある政策改善を加速する政策評価として、潜在的フィールドベースの批判を信頼すべきである。
例えば、実用的なアプリケーションでは、試行錯誤から学ぶのではなく、障害を避けるための学習を導くべきです。
少ない可能性を持つ状態は、例えば、局所的な最小点や移動対象の周辺での情報不足であることが多い。
このとき、長期的なリターンを評価するために、政策評価として報酬に基づく批評家を信頼すべきである。
この場合、アクションポリシーは探求する傾向がある。
さらに、潜在的なフィールド評価と、より良い状態値関数を見積もる計画とを組み合わせることができる。
このように、報酬デザインは報酬形成や段階的な報酬ではなく、報酬の最終段階に集中することができる。
さらに、多エージェント協調問題におけるコミュニケーションの欠如、すなわち、各エージェントは報酬ベースの批評家と、事前情報を持つ相対的なポテンシャルフィールドベースの批評家を持つ。
第3に,プレデター・プレイゲームに関する簡易実験により,提案手法の有効性が示された。
関連論文リスト
- Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - A Deeper Understanding of State-Based Critics in Multi-Agent
Reinforcement Learning [17.36759906285316]
我々は、州ベースの批評家が政策推定に偏見を導入し、アルゴリズムの保証を損なう可能性があることを示す。
また、州ベースの批判者が偏見を示さないとしても、共通の直観とは対照的に、大きな勾配のばらつきをもたらす可能性があることも示している。
論文 参考訳(メタデータ) (2022-01-03T14:51:30Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Learning Value Functions in Deep Policy Gradients using Residual
Variance [22.414430270991005]
ポリシー勾配アルゴリズムは、多様な意思決定と制御タスクで成功している。
従来のアクター批判アルゴリズムは真値関数の適合には成功しない。
我々は、その平均値に対して状態の値を学ぶ新しい状態値関数近似(resp. state-action-value)を提供する。
論文 参考訳(メタデータ) (2020-10-09T08:57:06Z) - Catch Me if I Can: Detecting Strategic Behaviour in Peer Assessment [61.24399136715106]
我々は、試験やホームワークの査定や採用・昇進の査定など、様々な査定課題における戦略的行動の課題について考察する。
我々はこのような操作を検出する方法の設計に重点を置いている。
具体的には、エージェントがピアのサブセットを評価し、後に集約されたランキングを最終的な順序付けとして出力する設定について検討する。
論文 参考訳(メタデータ) (2020-10-08T15:08:40Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。