論文の概要: Symmetry-Breaking Augmentations for Ad Hoc Teamwork
- arxiv url: http://arxiv.org/abs/2402.09984v2
- Date: Sat, 19 Apr 2025 14:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 16:11:36.199156
- Title: Symmetry-Breaking Augmentations for Ad Hoc Teamwork
- Title(参考訳): アドホックチームワークのためのシンメトリーブレーキング強化
- Authors: Ravi Hammond, Dustin Craggs, Mingyu Guo, Jakob Foerster, Ian Reid,
- Abstract要約: 本稿では, この課題に対する新しいアプローチとして, SBA (Symsymmetric-breaking Augmentations) を導入する。
トレーニングチームメイト間の振る舞いの多様性を高めるために対称性を持つ操作を適用することで、SBAはエージェントに未知の戦略に対する堅牢な応答を学ぶように促す。
我々の発見は、AIシステムが様々な人間の慣習やアライメントのコアメカニクスにどのように適応できるかについての洞察を提供する。
- 参考スコア(独自算出の注目度): 9.334943633357065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In dynamic collaborative settings, for artificial intelligence (AI) agents to better align with humans, they must adapt to novel teammates who utilise unforeseen strategies. While adaptation is often simple for humans, it can be challenging for AI agents. Our work introduces symmetry-breaking augmentations (SBA) as a novel approach to this challenge. By applying a symmetry-flipping operation to increase behavioural diversity among training teammates, SBA encourages agents to learn robust responses to unknown strategies, highlighting how social conventions impact human-AI alignment. We demonstrate this experimentally in two settings, showing that our approach outperforms previous ad hoc teamwork results in the challenging card game Hanabi. In addition, we propose a general metric for estimating symmetry dependency amongst a given set of policies. Our findings provide insights into how AI systems can better adapt to diverse human conventions and the core mechanics of alignment.
- Abstract(参考訳): ダイナミックなコラボレーティブな設定では、人工知能(AI)エージェントが人間とよりよく連携するためには、予期せぬ戦略を利用する新しいチームメイトに適応する必要があります。
人間には適応が簡単な場合が多いが、AIエージェントには難しいことがある。
本研究は, この課題に対する新しいアプローチとして, 対称性を破る拡張(SBA)を導入する。
SBAは、トレーニングチームメイト間の振る舞いの多様性を高めるために対称性を持つ操作を適用することで、エージェントに未知の戦略に対する堅牢な応答を学ぶように促し、社会的慣習が人間とAIのアライメントにどのように影響するかを強調します。
本研究では,この手法が従来のアドホックチームワークを上回り,挑戦的なカードゲームであるハナビに勝ることを示す。
さらに,あるポリシーの集合間の対称性依存性を推定するための一般測度を提案する。
我々の発見は、AIシステムが様々な人間の慣習やアライメントのコアメカニクスにどのように適応できるかについての洞察を提供する。
関連論文リスト
- Improving Human-AI Coordination through Adversarial Training and Generative Models [36.54154192505703]
新たな人間に一般化するには、人間の行動の多様性を捉えたデータに関する訓練が必要である。
敵の訓練は、そのようなデータを検索し、エージェントが堅牢であることを保証するための手段の1つである。
本稿では、事前学習された生成モデルを組み合わせて、有効な協調エージェントポリシーをシミュレートする自己サボタージュを克服するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2025-04-21T21:53:00Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Optimizing Risk-averse Human-AI Hybrid Teams [1.433758865948252]
本稿では,標準化された強化学習スキームを通じて,最良デリゲート法を学習するマネージャを提案する。
いくつかのグリッド環境において,マネージャのパフォーマンスの最適性を示す。
結果から、マネージャは望ましいデリゲートをうまく習得でき、その結果、チームパスは、ほぼ、あるいは正確には最適であることがわかった。
論文 参考訳(メタデータ) (2024-03-13T09:49:26Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In
the Game of Hanabi [15.917861586043813]
現状のZSCアルゴリズムは、異なる学習手法で訓練されたエージェントとペアリングした場合、性能が劣っていることを示す。
我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気のある協調型マルチエージェントゲームに基づくフレームワークを構築した。
論文 参考訳(メタデータ) (2023-08-20T14:44:50Z) - Mastering Asymmetrical Multiplayer Game with Multi-Agent
Asymmetric-Evolution Reinforcement Learning [8.628547849796615]
非対称マルチプレイヤーゲーム (AMP game) は、ゲーム内で複数の種類のエージェントが競合したり協力したりする人気ゲームジャンルである。
非対称な環境下での非バランス性のため、AMPゲームでトップの人間プレイヤーを倒すことのできる強力なエージェントを、典型的なセルフプレイトレーニング手法で訓練することは困難である。
AMPゲームにおいて,複数種類のエージェントを同時に学習できる新しいマルチエージェント強化学習フレームワークである非対称進化学習(AET)を提案する。
論文 参考訳(メタデータ) (2023-04-20T07:14:32Z) - On-the-fly Strategy Adaptation for ad-hoc Agent Coordination [21.029009561094725]
協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。
主な焦点は、セルフプレイパラダイムである。
本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:18:11Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - "Other-Play" for Zero-Shot Coordination [21.607428852157273]
その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2020-03-06T00:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。