論文の概要: Shielding Atari Games with Bounded Prescience
- arxiv url: http://arxiv.org/abs/2101.08153v2
- Date: Fri, 22 Jan 2021 14:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:26:57.447471
- Title: Shielding Atari Games with Bounded Prescience
- Title(参考訳): 境界プレサイエンスでアタリゲームをシールドする
- Authors: Mirco Giacobbe, Mohammadhosein Hasanbeig, Daniel Kroening, Hjalmar
Wijk
- Abstract要約: アタリゲームにおけるDRLエージェントの安全性を分析し、確保するための最初の正確な方法を提示します。
まず、30ゲームのための「安全な行動」を特徴づける43のプロパティのセットを与えます。
第2に,エージェントとゲームによって引き起こされるすべてのトレースを探索する手法を開発した。
第3に,境界状態探索と遮蔽を組み合わせた対策を提案する。
- 参考スコア(独自算出の注目度): 8.874011540975715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) is applied in safety-critical domains such
as robotics and autonomous driving. It achieves superhuman abilities in many
tasks, however whether DRL agents can be shown to act safely is an open
problem. Atari games are a simple yet challenging exemplar for evaluating the
safety of DRL agents and feature a diverse portfolio of game mechanics. The
safety of neural agents has been studied before using methods that either
require a model of the system dynamics or an abstraction; unfortunately, these
are unsuitable to Atari games because their low-level dynamics are complex and
hidden inside their emulator. We present the first exact method for analysing
and ensuring the safety of DRL agents for Atari games. Our method only requires
access to the emulator. First, we give a set of 43 properties that characterise
"safe behaviour" for 30 games. Second, we develop a method for exploring all
traces induced by an agent and a game and consider a variety of sources of game
non-determinism. We observe that the best available DRL agents reliably satisfy
only very few properties; several critical properties are violated by all
agents. Finally, we propose a countermeasure that combines a bounded
explicit-state exploration with shielding. We demonstrate that our method
improves the safety of all agents over multiple properties.
- Abstract(参考訳): 深層強化学習(drl)はロボット工学や自動運転といった安全クリティカルな分野に適用される。
これは多くのタスクで超人的な能力を達成するが、drlエージェントが安全に行動できるかどうかは未解決の問題である。
アタリゲームは、DRLエージェントの安全性を評価し、多種多様なゲームメカニックのポートフォリオを特徴とするシンプルだが挑戦的な例である。
神経エージェントの安全性は、システムダイナミクスのモデルや抽象化を必要とする手法を使う前に研究されてきたが、残念ながら、これらはアタリゲームには適さない。
そこで本研究では,アタリゲームにおけるDRLエージェントの安全性の確保と分析を行う。
本手法はエミュレータへのアクセスのみを必要とする。
まず、30ゲームに対して「安全な動作」を特徴付ける43のプロパティのセットを与える。
第2に,エージェントとゲームによって誘導されるすべてのトレースを探索する手法を開発し,ゲーム非決定性の諸源を検討する。
もっとも有効なDRLエージェントは、非常に少数の特性しか確実に満たさないことが観察された。
最後に,包括的明示状態探索と遮蔽を組み合わせた対策を提案する。
提案手法は,複数の特性にまたがる全てのエージェントの安全性を向上させる。
関連論文リスト
- TiKick: Toward Playing Multi-agent Football Full Games from Single-agent
Demonstrations [31.596018856092513]
Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、学習ベースのAIシステムである。
私たちの知る限りでは、Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、初めての学習ベースのAIシステムだ。
論文 参考訳(メタデータ) (2021-10-09T08:34:58Z) - Explaining Deep Reinforcement Learning Agents In The Atari Domain
through a Surrogate Model [78.69367679848632]
深部RLエージェントの説明を導出するための軽量で効果的な手法について述べる。
提案手法は,RLエージェントの画素ベース入力から解釈可能な知覚的入力表現への変換に依存する。
次に、ターゲットの深いRLエージェントの挙動を再現するために、それ自身解釈可能な代理モデルを訓練する。
論文 参考訳(メタデータ) (2021-10-07T05:01:44Z) - WAD: A Deep Reinforcement Learning Agent for Urban Autonomous Driving [8.401473551081747]
本稿では,DRL駆動型ウォッチ・アンド・ドライブ(WAD)エージェントをエンド・ツー・エンドの都市自動運転に適用する。
この研究は、最近の進歩により、CARLAの高次元空間における重要な物体や状態を検出し、それらから潜伏状態を取り出すことを目的としている。
我々の新しいアプローチは、少ないリソース、異なる運転タスクのステップバイステップ学習、ハードエピソード終了ポリシー、報酬メカニズムを利用して、エージェントは全ての運転タスクで100%の成功率を達成することができた。
論文 参考訳(メタデータ) (2021-08-27T06:48:31Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。
概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。
その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文 参考訳(メタデータ) (2021-05-02T23:47:55Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。