論文の概要: Does DQN really learn? Exploring adversarial training schemes in Pong
- arxiv url: http://arxiv.org/abs/2203.10614v1
- Date: Sun, 20 Mar 2022 18:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 07:39:40.301348
- Title: Does DQN really learn? Exploring adversarial training schemes in Pong
- Title(参考訳): DQNは本当に学んでいますか?
Pongにおける対人訓練の取り組み
- Authors: Bowen He, Sreehari Rammohan, Jessica Forde, Michael Littman
- Abstract要約: 筆者らは,チェナーとプールという2つのセルフプレイトレーニングスキームについて検討し,アタリポンのエージェント性能の向上につながることを示す。
また,Chainer や Pool を用いたトレーニングエージェントにより,より予測力の高いネットワークアクティベーションが実現し,重要なゲーム状態の特徴を推定できることを示す。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study two self-play training schemes, Chainer and Pool, and
show they lead to improved agent performance in Atari Pong compared to a
standard DQN agent -- trained against the built-in Atari opponent. To measure
agent performance, we define a robustness metric that captures how difficult it
is to learn a strategy that beats the agent's learned policy. Through playing
past versions of themselves, Chainer and Pool are able to target weaknesses in
their policies and improve their resistance to attack. Agents trained using
these methods score well on our robustness metric and can easily defeat the
standard DQN agent. We conclude by using linear probing to illuminate what
internal structures the different agents develop to play the game. We show that
training agents with Chainer or Pool leads to richer network activations with
greater predictive power to estimate critical game-state features compared to
the standard DQN agent.
- Abstract(参考訳): そこで本研究では,自己プレイ型学習システムであるchainerとpoolについて検討し,atari pongのエージェント性能が通常のdqnエージェントと比較して向上することを示した。
エージェントのパフォーマンスを測定するために,エージェントの学習方針を破る戦略を学ぶのがいかに難しいかを計測するロバストネス指標を定義した。
過去のバージョンをプレイすることで、ChainerとPoolはポリシーの弱点を標的にし、攻撃に対する抵抗を改善することができる。
これらの手法を用いて訓練されたエージェントは、我々のロバストネス測定値でよく得点し、標準のDQNエージェントを容易に打ち負かすことができる。
我々は、線形探索を用いて、異なるエージェントがゲームのために開発する内部構造を照らし出す。
ストリンカーやプールを持つトレーニングエージェントは、標準的なdqnエージェントよりも重要なゲーム状態の特徴を推定する予測能力が高く、よりリッチなネットワークアクティベーションをもたらす。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Minimax Exploiter: A Data Efficient Approach for Competitive Self-Play [12.754819077905061]
Minimax Exploiterは、敵の知識を活用するメインエージェントを利用するゲーム理論のアプローチである。
簡単なターンベースゲームやアーケード学習環境,現代的なビデオゲームであるFor Honorなど,さまざまな設定でアプローチを検証する。
論文 参考訳(メタデータ) (2023-11-28T19:34:40Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - A Technique to Create Weaker Abstract Board Game Agents via
Reinforcement Learning [0.0]
ボードゲームには、少なくとも1人のプレーヤーがプレーする必要があります。
対戦相手が行方不明になったとき、私たちはAIエージェントを作りました。
この研究では、ボードゲームをする弱いAIエージェントの作り方を説明します。
論文 参考訳(メタデータ) (2022-09-01T20:13:20Z) - Reinforcement Learning In Two Player Zero Sum Simultaneous Action Games [0.0]
2人のプレイヤーのゼロサム同時アクションゲームは、ビデオゲーム、金融市場、戦争、ビジネスコンペティション、その他多くの設定で一般的である。
本稿では,2人のプレイヤーのゼロサム同時アクションゲームにおける強化学習の基本概念を紹介し,このタイプのゲームがもたらすユニークな課題について論じる。
本稿では,これらの課題に対処する新たなエージェントを2つ紹介する。
論文 参考訳(メタデータ) (2021-10-10T16:03:44Z) - BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。
概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。
その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文 参考訳(メタデータ) (2021-05-02T23:47:55Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Evaluating the Rainbow DQN Agent in Hanabi with Unseen Partners [4.4532936483984065]
ハナビ(英: Hanabi)は、AI技術の存在に挑戦する協調ゲームであり、他のプレイヤーの精神状態をモデル化し、その振る舞いを解釈し予測することに焦点を当てている。
本稿では,一般的なRainbowDQNアーキテクチャを用いたセルフプレイによりトレーニングされたエージェントが,トレーニング中に見られなかった単純なルールベースのエージェントとうまく連携できないことを示す。
論文 参考訳(メタデータ) (2020-04-28T04:24:44Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - "Other-Play" for Zero-Shot Coordination [21.607428852157273]
その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2020-03-06T00:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。