論文の概要: A Closer Look at Invalid Action Masking in Policy Gradient Algorithms
- arxiv url: http://arxiv.org/abs/2006.14171v3
- Date: Tue, 31 May 2022 01:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 02:48:03.407514
- Title: A Closer Look at Invalid Action Masking in Policy Gradient Algorithms
- Title(参考訳): ポリシー勾配アルゴリズムにおける無効な行動マスキングについて
- Authors: Shengyi Huang, Santiago Onta\~n\'on
- Abstract要約: ディープ強化学習アルゴリズムは、多くの挑戦的な戦略ゲームにおいて最先端のパフォーマンスを達成した。
これらのゲームには複雑なルールがあるため、学習ポリシーによって予測される完全な離散的なアクション分布からサンプリングされたアクションは、ゲームルールに従って無効になる可能性が高い。
ポリシー勾配アルゴリズムでこの問題に対処する一般的なアプローチは、無効なアクションを"マスクアウト"し、有効なアクションのセットからのみサンプリングすることです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Deep Reinforcement Learning (DRL) algorithms have achieved
state-of-the-art performance in many challenging strategy games. Because these
games have complicated rules, an action sampled from the full discrete action
distribution predicted by the learned policy is likely to be invalid according
to the game rules (e.g., walking into a wall). The usual approach to deal with
this problem in policy gradient algorithms is to "mask out" invalid actions and
just sample from the set of valid actions. The implications of this process,
however, remain under-investigated. In this paper, we 1) show theoretical
justification for such a practice, 2) empirically demonstrate its importance as
the space of invalid actions grows, and 3) provide further insights by
evaluating different action masking regimes, such as removing masking after an
agent has been trained using masking. The source code can be found at
https://github.com/vwxyzjn/invalid-action-masking
- Abstract(参考訳): 近年、Deep Reinforcement Learning (DRL)アルゴリズムは、多くの挑戦的な戦略ゲームにおいて最先端のパフォーマンスを達成した。
これらのゲームには複雑なルールがあるため、学習ポリシーによって予測される完全な離散的なアクション分布からサンプリングされたアクションは、ゲームルール(例えば、壁に入るなど)に従って無効になる可能性がある。
ポリシー勾配アルゴリズムでこの問題に対処する一般的なアプローチは、無効なアクションを"マスクアウト"し、有効なアクションのセットからサンプルする。
しかし、この過程の意義は未調査のままである。
本稿では,
1)そのような実践の理論的正当性を示す。
2)無効行為の空間が拡大するにつれて,その重要性を実証的に示し,
3)マスキングによる訓練後のマスキングの除去など,さまざまなアクションマスキングレジームを評価することにより,さらなる知見を提供する。
ソースコードはhttps://github.com/vwxyzjn/invalid-action-maskingにある。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - No Prior Mask: Eliminate Redundant Action for Deep Reinforcement
Learning [13.341525656639583]
大規模なアクションスペースは、実世界で強化学習メソッドをデプロイする上での基本的な障害のひとつです。
我々はNo Prior Mask (NPM) という新しい冗長な動作フィルタリング機構を提案する。
論文 参考訳(メタデータ) (2023-12-11T09:56:02Z) - Automated Verification of Correctness for Masked Arithmetic Programs [7.9330271653905235]
標数 2 のガロア場上のマスク付き算術プログラムの問題について検討する。
本稿では,ランダムなテストとSMTによる問題解決を支援する,項書き換えに基づく自動手法を提案する。
このアプローチを新しいツールであるFISCHERとして実装し、様々なベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2023-05-26T02:55:46Z) - Towards Improved Input Masking for Convolutional Neural Networks [66.99060157800403]
層マスキングと呼ぶCNNのための新しいマスキング手法を提案する。
本手法は,マスク形状や色がモデル出力に与える影響を排除あるいは最小化することができることを示す。
また,マスクの形状がクラスに関する情報を漏洩させる可能性を示し,クラス関連特徴に対するモデル依存度の推定に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2022-11-26T19:31:49Z) - Understanding the Limits of Poisoning Attacks in Episodic Reinforcement
Learning [36.30086280732181]
本稿では,<sup>RL</sup>における目標政策に向けて,幻想的順序最適学習アルゴリズムを操作するための毒攻撃について検討する。
攻撃の効果は、報酬が束縛されているか、無束縛されているかによって大きく左右される。
論文 参考訳(メタデータ) (2022-08-29T15:10:14Z) - Complete Policy Regret Bounds for Tallying Bandits [51.039677652803675]
政策後悔は、適応的な敵に対してオンライン学習アルゴリズムのパフォーマンスを測定するという、よく確立された概念である。
我々は,不完全な政策後悔を効果的に最小化できる敵の制限について検討する。
我々は、$tildemathcalO(mKsqrtT)$の完全なポリシーを後悔するアルゴリズムを提供し、$tildemathcalO$表記は対数要素だけを隠す。
論文 参考訳(メタデータ) (2022-04-24T03:10:27Z) - Initiative Defense against Facial Manipulation [82.96864888025797]
本稿では,悪意あるユーザによって制御される顔操作モデルの性能を低下させるための,イニシアティブ・ディフェンスの新しい枠組みを提案する。
まず、サロゲートモデルを用いてターゲット操作モデルを模倣し、次に毒の摂動発生器を考案し、所望の毒を得る。
論文 参考訳(メタデータ) (2021-12-19T09:42:28Z) - Synthesising Reinforcement Learning Policies through Set-Valued
Inductive Rule Learning [5.889881421315419]
強化学習アルゴリズムは、人に対する解釈と信頼が難しいブラックボックスポリシーを生成する。
我々は,CN2ルールマイニングアルゴリズムに基づく政策蒸留アルゴリズムを導入し,政策をルールベース決定システムに蒸留する。
最新の強化学習アルゴリズムを必要とする複雑なタスクであるMario AIベンチマークで、我々のアルゴリズムの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-10T19:06:28Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Discovering Imperfectly Observable Adversarial Actions using Anomaly
Detection [0.24244694855867271]
異常検出は異常で不審な振る舞いを発見する方法である。
このようなゲームを解くためのアルゴリズムを2つ提案する。
実験により、両方のアルゴリズムが低特徴空間次元の場合に適用可能であることが示された。
論文 参考訳(メタデータ) (2020-04-22T15:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。