論文の概要: Unbiased Asymmetric Actor-Critic for Partially Observable Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2105.11674v1
- Date: Tue, 25 May 2021 05:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 02:48:05.603076
- Title: Unbiased Asymmetric Actor-Critic for Partially Observable Reinforcement
Learning
- Title(参考訳): 部分観測型強化学習のための不偏非対称アクター臨界
- Authors: Andrea Baisero and Christopher Amato
- Abstract要約: 非対称アクター批判法は、州ベースの批評家を通じて歴史に基づく政策を訓練することで、そのような情報を利用する。
我々は、状態に基づく批評家を用いた非対称アクター批判法の理論を検証し、共通の変種の有効性を損なう根本的な問題を明らかにする。
理論的に音を残しながら状態情報を活用できる非バイアス非対称アクター・クリティックな変種を提案する。
- 参考スコア(独自算出の注目度): 17.48572546628464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In partially observable reinforcement learning, offline training gives access
to latent information which is not available during online training and/or
execution, such as the system state. Asymmetric actor-critic methods exploit
such information by training a history-based policy via a state-based critic.
However, many asymmetric methods lack theoretical foundation, and are only
evaluated on limited domains. We examine the theory of asymmetric actor-critic
methods which use state-based critics, and expose fundamental issues which
undermine the validity of a common variant, and its ability to address high
partial observability. We propose an unbiased asymmetric actor-critic variant
which is able to exploit state information while remaining theoretically sound,
maintaining the validity of the policy gradient theorem, and introducing no
bias and relatively low variance into the training process. An empirical
evaluation performed on domains which exhibit significant partial observability
confirms our analysis, and shows the unbiased asymmetric actor-critic converges
to better policies and/or faster than symmetric actor-critic and standard
asymmetric actor-critic baselines.
- Abstract(参考訳): 部分的に観察可能な強化学習では、オフライントレーニングは、システム状態などのオンライントレーニングや実行中に利用できない潜在情報へのアクセスを提供する。
非対称アクター批判法は、州ベースの批評家を通じて歴史に基づく政策を訓練することでそのような情報を利用する。
しかし、多くの非対称法は理論的基礎がなく、限られた領域でのみ評価される。
状態に基づく批判を用いた非対称的アクタ批判法の理論を検証し、共通型の有効性を損なう根本的な問題や、高い部分的可観測性に対処する能力を公開する。
本研究では, 理論的に健全なまま状態情報を活用でき, 方針勾配定理の妥当性を保ちながら, 学習過程にバイアスや相対的ばらつきをもたらさない非バイアス非対称アクタ-クリティック変種を提案する。
有意な部分的可観測性を示す領域で実施された経験的評価は、我々の分析を裏付けるものであり、不偏非対称的アクター批判は、対称的アクター批判および標準非対称的アクター批判ベースラインよりも優れたポリシーおよび/または高速に収束することを示す。
関連論文リスト
- On Centralized Critics in Multi-Agent Reinforcement Learning [16.361249170514828]
分散実行のためのトレーニングは、マルチエージェント強化学習において一般的なアプローチとなっている。
我々は、部分的に観察可能な環境において、状態ベースの批評家を使うことの効果を分析する。
論文 参考訳(メタデータ) (2024-08-26T19:27:06Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Counterfactual-Augmented Importance Sampling for Semi-Offline Policy
Evaluation [13.325600043256552]
そこで本研究では,ヒトが観測不能な反事実軌道のアノテーションを提供する半オフライン評価フレームワークを提案する。
提案手法は,アノテーション・ソリケーションの原則に基づく設計と組み合わせることで,高次の領域における強化学習の活用を可能にする。
論文 参考訳(メタデータ) (2023-10-26T04:41:19Z) - A Deeper Understanding of State-Based Critics in Multi-Agent
Reinforcement Learning [17.36759906285316]
我々は、州ベースの批評家が政策推定に偏見を導入し、アルゴリズムの保証を損なう可能性があることを示す。
また、州ベースの批判者が偏見を示さないとしても、共通の直観とは対照的に、大きな勾配のばらつきをもたらす可能性があることも示している。
論文 参考訳(メタデータ) (2022-01-03T14:51:30Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z) - A Symmetric Loss Perspective of Reliable Machine Learning [87.68601212686086]
平衡誤差率 (BER) の最小化において, 対称損失が破損ラベルからのロバストな分類をいかに生み出すかを検討する。
我々は、関連するキーワードからのみ学習したい問題において、AUC手法が自然言語処理にどのように役立つかを実証する。
論文 参考訳(メタデータ) (2021-01-05T06:25:47Z) - Learning Value Functions in Deep Policy Gradients using Residual
Variance [22.414430270991005]
ポリシー勾配アルゴリズムは、多様な意思決定と制御タスクで成功している。
従来のアクター批判アルゴリズムは真値関数の適合には成功しない。
我々は、その平均値に対して状態の値を学ぶ新しい状態値関数近似(resp. state-action-value)を提供する。
論文 参考訳(メタデータ) (2020-10-09T08:57:06Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。