論文の概要: Combining Diverse Information for Coordinated Action: Stochastic Bandit Algorithms for Heterogeneous Agents
- arxiv url: http://arxiv.org/abs/2408.03405v1
- Date: Tue, 6 Aug 2024 18:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 14:26:26.353326
- Title: Combining Diverse Information for Coordinated Action: Stochastic Bandit Algorithms for Heterogeneous Agents
- Title(参考訳): 協調行動のための異種情報の組み合わせ:不均一エージェントのための確率帯域アルゴリズム
- Authors: Lucia Gordon, Esther Rolf, Milind Tambe,
- Abstract要約: マルチエージェントの盗賊は、各腕からの報酬は固定分布に従うと仮定する。
報酬は各エージェントの 環境に対する感受性に依存する
UCBスタイルのアルゴリズムMin-Widthを導入し、多様なエージェントから情報を集約する。
- 参考スコア(独自算出の注目度): 26.075152706845454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic multi-agent multi-armed bandits typically assume that the rewards from each arm follow a fixed distribution, regardless of which agent pulls the arm. However, in many real-world settings, rewards can depend on the sensitivity of each agent to their environment. In medical screening, disease detection rates can vary by test type; in preference matching, rewards can depend on user preferences; and in environmental sensing, observation quality can vary across sensors. Since past work does not specify how to allocate agents of heterogeneous but known sensitivity of these types in a stochastic bandit setting, we introduce a UCB-style algorithm, Min-Width, which aggregates information from diverse agents. In doing so, we address the joint challenges of (i) aggregating the rewards, which follow different distributions for each agent-arm pair, and (ii) coordinating the assignments of agents to arms. Min-Width facilitates efficient collaboration among heterogeneous agents, exploiting the known structure in the agents' reward functions to weight their rewards accordingly. We analyze the regret of Min-Width and conduct pseudo-synthetic and fully synthetic experiments to study the performance of different levels of information sharing. Our results confirm that the gains to modeling agent heterogeneity tend to be greater when the sensitivities are more varied across agents, while combining more information does not always improve performance.
- Abstract(参考訳): 確率的なマルチエージェントのマルチアームバンディットは、通常、各アームからの報酬は、どのエージェントが腕を引っ張ろうとも、固定された分布に従うと仮定する。
しかし、実世界の多くの環境では、報酬は各エージェントの環境に対する感受性に依存する。
医療スクリーニングでは、疾患検出率はテストタイプによって異なり、嗜好マッチングでは、報酬はユーザの好みによって異なり、環境検知では、センサー間で観察品質が変化する。
過去の研究では、確率的バンディット設定において、これらのタイプの不均一だが既知の感度のエージェントを割り当てる方法を規定していないため、多様なエージェントから情報を集約するUPBスタイルのアルゴリズムMin-Widthを導入する。
そうすることで、私たちは共同課題に取り組みます。
(i)各エージェント・アーム対ごとに異なる分布に従う報酬を集約し、
二 エージェントの武器への割り当てを調整すること。
Min-Widthは異種エージェント間の効率的な協調を促進し、エージェントの報酬関数の既知の構造を利用して報酬を重み付けする。
我々は、Min-Widthの後悔を分析し、擬似合成および完全合成実験を行い、異なるレベルの情報共有の性能について研究する。
本結果から, エージェント間の感度が変化しやすい場合, モデルエージェントの不均一性が向上する傾向にあるが, 情報を組み合わせることで性能が向上するとは限らないことがわかった。
関連論文リスト
- An Extensible Framework for Open Heterogeneous Collaborative Perception [58.70875361688463]
協調的な知覚は、単一エージェントの知覚の限界を緩和することを目的としている。
本稿では,新しい異種エージェントを協調認識に適応させる方法を提案する。
本稿では,新しい協調認識フレームワークであるHeterogeneous ALliance(HEAL)を提案する。
論文 参考訳(メタデータ) (2024-01-25T05:55:03Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Near-Optimal Collaborative Learning in Bandits [15.456561090871244]
本稿では,各エージェントが有限個のアームに対向する一般マルチエージェントバンディットモデルを提案する。
ツイストは、各エージェントの最適なアームは最大の混合報酬を持つアームであり、アームの混合報酬は全てのエージェントに対するこのアームの報酬の重み付けの和である。
純粋探索のための近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-31T21:11:47Z) - Learning Multi-agent Skills for Tabular Reinforcement Learning using
Factor Graphs [41.17714498464354]
エージェント間の協調的な探索行動により,マルチエージェントの選択肢を直接計算できることが示唆された。
提案アルゴリズムは,マルチエージェントオプションの同定に成功し,シングルエージェントオプションや非オプションを用いることで,従来よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-01-20T15:33:08Z) - Unlimited Neighborhood Interaction for Heterogeneous Trajectory
Prediction [97.40338982628094]
マルチプライカテゴリにおける異種エージェントの軌跡を予測できる,シンプルで効果的な非境界相互作用ネットワーク (UNIN) を提案する。
具体的には、提案した無制限近傍相互作用モジュールは、相互作用に関与するすべてのエージェントの融合特徴を同時に生成する。
階層型グラフアテンションモジュールを提案し,カテゴリ間相互作用とエージェント間相互作用を求める。
論文 参考訳(メタデータ) (2021-07-31T13:36:04Z) - Heterogeneous Explore-Exploit Strategies on Multi-Star Networks [0.0]
エージェントがマルチスターネットワーク上で通信する分散帯域幅問題について検討する。
モデル不規則ネットワークグラフとしてマルチスターを用いた異種探索探索戦略を提案する。
論文 参考訳(メタデータ) (2020-09-02T20:56:49Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z) - Individual specialization in multi-task environments with multiagent
reinforcement learners [0.0]
汎用知的エージェント構築の第一歩として,マルチエージェント強化学習(MARL)への関心が高まっている。
以前の結果は、調整、効率/公平性、共有プールリソース共有の条件の増大を示唆している。
マルチタスク環境において、複数の報奨タスクを実行できるため、エージェントは必ずしも全てのタスクでうまく機能する必要はないが、特定の条件下では特殊化される可能性がある。
論文 参考訳(メタデータ) (2019-12-29T15:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。