論文の概要: A Minimax Approach to Ad Hoc Teamwork
- arxiv url: http://arxiv.org/abs/2502.02377v1
- Date: Tue, 04 Feb 2025 14:57:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:55.391035
- Title: A Minimax Approach to Ad Hoc Teamwork
- Title(参考訳): アドホックなチームワークのためのミニマックスアプローチ
- Authors: Victor Villin, Thomas Kleine Buening, Christos Dimitrakakis,
- Abstract要約: 本稿では,AHT(Ad Hoc Teamwork)に対するミニマックスベイズアプローチを提案する。
パートナーよりも特定の分布を仮定する既存の方法とは異なり、我々のアプローチは最悪のパフォーマンス保証を改善する。
- 参考スコア(独自算出の注目度): 3.085995273374333
- License:
- Abstract: We propose a minimax-Bayes approach to Ad Hoc Teamwork (AHT) that optimizes policies against an adversarial prior over partners, explicitly accounting for uncertainty about partners at time of deployment. Unlike existing methods that assume a specific distribution over partners, our approach improves worst-case performance guarantees. Extensive experiments, including evaluations on coordinated cooking tasks from the Melting Pot suite, show our method's superior robustness compared to self-play, fictitious play, and best response learning. Our work highlights the importance of selecting an appropriate training distribution over teammates to achieve robustness in AHT.
- Abstract(参考訳): 本稿では,パートナーよりも相手に対するポリシーを最適化する,Ad Hoc Teamwork(AHT)に対するminimax-Bayesアプローチを提案する。
パートナーよりも特定の分布を仮定する既存の方法とは異なり、我々のアプローチは最悪のパフォーマンス保証を改善する。
メルティングポットスイートからの協調調理タスクの評価を含む広範囲な実験は、自己プレイや架空の遊び、そして最高の反応学習と比較して、我々の方法の優れた堅牢性を示す。
AHTの堅牢性を達成するために、チームメイトに対して適切なトレーニングディストリビューションを選択することの重要性を強調します。
関連論文リスト
- TeamLoRA: Boosting Low-Rank Adaptation with Expert Collaboration and Competition [61.91764883512776]
我々は,専門家のためのコラボレーション・コンペティション・モジュールからなる,革新的なPEFT手法であるTeamLoRAを紹介する。
そうすることで、TeamLoRAは専門家を"チーム"として内部のコラボレーションや競争に結び付け、マルチタスク学習のためのより高速で正確なPEFTパラダイムを可能にします。
論文 参考訳(メタデータ) (2024-08-19T09:58:53Z) - Best Response Shaping [1.0874100424278175]
LOLAとPOLAのエージェントは、相手のルックアヘッド最適化ステップを通じて、相互性に基づく協調政策を区別することで学習する。
彼らはいくつかの最適化ステップを考慮するので、そのリターンを最適化するために多くのステップを踏む学習相手がそれらを活用できるかもしれない。
そこで本研究では,Best Response Shaping (BRS) という新しい手法を導入する。
論文 参考訳(メタデータ) (2024-04-05T22:03:35Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Minimum Coverage Sets for Training Robust Ad Hoc Teamwork Agents [39.19326531319873]
既存のAd Hoc Teamwork(AHT)メソッドは、さまざまなチームメイトポリシーを持つエージェントをトレーニングすることで、この問題に対処する。
我々は、AHTトレーニングに使用されるチームメイトポリシーのセットを生成するL-BRDivアルゴリズムを導入し、エージェントがMCSのポリシーをエミュレートすることを奨励する。
実験により,L-BRDivは2人共役の幅広い問題において,最先端の手法よりも堅牢なAHTエージェントを生成することを示した。
論文 参考訳(メタデータ) (2023-08-18T14:45:22Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Generating Teammates for Training Robust Ad Hoc Teamwork Agents via
Best-Response Diversity [6.940758395823777]
アドホックチームワーク(Ad hoc teamwork、AHT)は、未知のチームメイトと効果的に協力する堅牢な学習エージェントを設計する挑戦である。
初期のアプローチは、手作りのチームメイトポリシーの多様なセットで学習者をトレーニングすることで、AHTの課題に対処する。
近年,情報理論の多様性指標を最適化することにより,チームメイトポリシーを用いて学習者の堅牢性を向上させる手法が提案されている。
論文 参考訳(メタデータ) (2022-07-28T14:58:32Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Partner-Aware Algorithms in Decentralized Cooperative Bandit Teams [14.215359943041369]
我々は、より一般的なマルチエージェントコラボレーションの抽象化として、複合報酬を用いた分散マルチエージェント帯域(MAB)問題を提案し、解析する。
本稿では,よく知られた単一エージェント・アッパー信頼境界アルゴリズムを拡張した逐次意思決定のためのパートナー・アウェア戦略を提案する。
提案したパートナー意識戦略は、他の既知の手法よりも優れており、人間による研究は、パートナー意識戦略を実装するAIエージェントと協力することを好むことを示唆している。
論文 参考訳(メタデータ) (2021-10-02T08:17:30Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Improving Ensemble Robustness by Collaboratively Promoting and Demoting
Adversarial Robustness [19.8818435601131]
アンサンブルベースの敵の訓練は、敵の攻撃に対する堅牢性を達成するための原則的アプローチである。
本研究では,アンサンブルモデルの委員会モデル間で協調する,シンプルかつ効果的な戦略を提案する。
提案する枠組みは, 対向移動可能性の低減と, アンサンブルメンバーの多様性の促進に資する。
論文 参考訳(メタデータ) (2020-09-21T04:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。