論文の概要: Deep Learning Agents Trained For Avoidance Behave Like Hawks And Doves
- arxiv url: http://arxiv.org/abs/2503.11452v1
- Date: Fri, 14 Mar 2025 14:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:21.748081
- Title: Deep Learning Agents Trained For Avoidance Behave Like Hawks And Doves
- Title(参考訳): 深層学習のエージェントは、ホークスやダブスのように、避けられるように訓練される
- Authors: Aryaman Reddi, Glenn Vinnicombe,
- Abstract要約: 簡単な回避ゲームを行う深層学習エージェントによって表現される最適な戦略を提案する。
我々は、2人のエージェントの学習と行動を分析する。
本研究は,ゲーム『ホークス』や『ダブズ』に類似した行動を示し,攻撃的エージェントが目標に到達するための攻撃的戦略を採用し,他のエージェントが攻撃的エージェントを避ける方法を学ぶことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present heuristically optimal strategies expressed by deep learning agents playing a simple avoidance game. We analyse the learning and behaviour of two agents within a symmetrical grid world that must cross paths to reach a target destination without crashing into each other or straying off of the grid world in the wrong direction. The agent policy is determined by one neural network that is employed in both agents. Our findings indicate that the fully trained network exhibits behaviour similar to that of the game Hawks and Doves, in that one agent employs an aggressive strategy to reach the target while the other learns how to avoid the aggressive agent.
- Abstract(参考訳): 簡単な回避ゲームを行う深層学習エージェントによって表現されるヒューリスティックな最適戦略を提案する。
我々は、2人のエージェントの学習と行動を分析し、互いに衝突したり、グリッドの世界から間違った方向に外れたりすることなく、目的地に到達するためにパスを横切る必要がある。
エージェントポリシーは、両方のエージェントで使用される1つのニューラルネットワークによって決定される。
本研究は,ゲーム『ホークス』や『ダブズ』に類似した行動を示し,攻撃的エージェントが目標に到達するための攻撃的戦略を採用し,他のエージェントが攻撃的エージェントを避ける方法を学ぶことを示唆している。
関連論文リスト
- Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Mastering Percolation-like Games with Deep Learning [0.0]
ネットワークを破壊しようとする攻撃者の論理を模倣した格子上にシングルプレイヤーゲームを作成する。
ゲームの目的は、最も少ないステップ数で全てのノードを無効にすることである。
私たちは、堅牢性の異なる定義でエージェントを訓練し、学習した戦略を比較します。
論文 参考訳(メタデータ) (2023-05-12T15:37:45Z) - Game-theoretic Objective Space Planning [4.989480853499916]
他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。
現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。
本稿では,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。
論文 参考訳(メタデータ) (2022-09-16T07:35:20Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。