論文の概要: Collaborating in Multi-Armed Bandits with Strategic Agents
- arxiv url: http://arxiv.org/abs/2605.13145v1
- Date: Wed, 13 May 2026 08:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.896915
- Title: Collaborating in Multi-Armed Bandits with Strategic Agents
- Title(参考訳): ストラテジックエージェントを用いた多関節バンドの協調
- Authors: Idan Barnea, Ofir Schlisselberg, Yishay Mansour,
- Abstract要約: 戦略エージェントが同一のバンディットのインスタンスをまとめて解くマルチエージェントベイジアンバンディット問題における協調学習について検討した。
複数のエージェントが情報を共有することで学習を加速する一方で、戦略エージェントは自由化と探索の回避を好んでいる。
我々は,強い後悔の保証を達成しつつ,ナッシュ均衡として協調を維持する機構であるtextttCAOSを提案する。
- 参考スコア(独自算出の注目度): 37.473632043513014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study collaborative learning in multi-agent Bayesian bandit problems, where strategic agents collectively solve the same bandit instance. While multiple agents can accelerate learning by sharing information, strategic agents might prefer to free-ride and avoid exploration. We consider a setting with persistent agents that participate in multiple time periods. This is in contrast to most previous works on incentives in multi-agent MAB, which assume short-lived agents, namely each agent has a single decision to make and optimizes their expected reward in that single decision. As in the multi-agent MAB model with incentives, our model does not have monetary transfers, and the only incentives are through information sharing. We propose \texttt{CAOS}, a mechanism that sustains collaboration as a Nash equilibrium while achieving strong regret guarantees. Our results demonstrate that collaborative exploration can be sustained purely through information sharing, achieving performance close to that of fully cooperative systems despite strategic behavior.
- Abstract(参考訳): 戦略エージェントが同一のバンディットのインスタンスをまとめて解くマルチエージェントベイジアンバンディット問題における協調学習について検討した。
複数のエージェントが情報を共有することで学習を加速する一方で、戦略エージェントは自由化と探索の回避を好んでいる。
複数の期間にまたがる永続的エージェントの設定について検討する。
これは、短命のエージェントを仮定するマルチエージェントMABのインセンティブに関する以前のほとんどの研究とは対照的である。
インセンティブを持つマルチエージェントMABモデルと同様に、我々のモデルには金銭的移転がなく、インセンティブは情報共有によるのみである。
我々は,強い後悔の保証を達成しつつ,ナッシュ均衡として協調を維持する機構である「texttt{CAOS}」を提案する。
本研究は, 戦略的行動にもかかわらず, 協調探索は情報共有によって純粋に維持でき, 完全協調システムに近い性能を達成できることを実証する。
関連論文リスト
- Learning with Limited Shared Information in Multi-agent Multi-armed Bandit [28.82167431329527]
マルチエージェントマルチアームバンディット(MAMAB)は古典的な協調学習モデルであり,近年注目されている。
本稿では,各エージェントが共有したい情報のみを共有する,制限付き共有情報マルチエージェントマルチアームバンド(LSI-MAMAB)モデルを提案する。
論文 参考訳(メタデータ) (2025-02-21T09:42:09Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Cooperative-Competitive Reinforcement Learning with History-Dependent
Rewards [12.41853254173419]
エージェントの意思決定問題は,対話的部分観測可能なマルコフ決定プロセス(I-POMDP)としてモデル化可能であることを示す。
本稿では,対話型アドバンテージアクター批判手法(IA2C$+$)を提案する。
実験の結果、IA2C$+$は他のいくつかのベースラインよりも早く、より堅牢に最適なポリシーを学ぶことが示されている。
論文 参考訳(メタデータ) (2020-10-15T21:37:07Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。