論文の概要: A Dynamic Observation Strategy for Multi-agent Multi-armed Bandit
Problem
- arxiv url: http://arxiv.org/abs/2004.03793v1
- Date: Wed, 8 Apr 2020 03:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 09:38:38.446263
- Title: A Dynamic Observation Strategy for Multi-agent Multi-armed Bandit
Problem
- Title(参考訳): マルチエージェントマルチアームバンド問題に対する動的観察戦略
- Authors: Udari Madhushani and Naomi Ehrich Leonard
- Abstract要約: 我々は、意思決定エージェントが隣人の選択や報酬を線形観測コストで観察できるマルチエージェントマルチアームバンディット問題を解析する。
我々は,各エージェントが期待する累積報酬を最大化するために,サンプリングアルゴリズムと観測プロトコルを設計する。
- 参考スコア(独自算出の注目度): 5.33024001730262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We define and analyze a multi-agent multi-armed bandit problem in which
decision-making agents can observe the choices and rewards of their neighbors
under a linear observation cost. Neighbors are defined by a network graph that
encodes the inherent observation constraints of the system. We define a cost
associated with observations such that at every instance an agent makes an
observation it receives a constant observation regret. We design a sampling
algorithm and an observation protocol for each agent to maximize its own
expected cumulative reward through minimizing expected cumulative sampling
regret and expected cumulative observation regret. For our proposed protocol,
we prove that total cumulative regret is logarithmically bounded. We verify the
accuracy of analytical bounds using numerical simulations.
- Abstract(参考訳): 我々は、意思決定エージェントが隣人の選択や報酬を線形観測コストで観察できるマルチエージェントマルチアームバンディット問題を定義し、分析する。
近傍は、システムの固有の観測制約を符号化するネットワークグラフによって定義される。
我々は,エージェントが観察を行うたびに一定の観察後悔を受けるように,観察に関連するコストを定義する。
推定累積サンプリング後悔と予測累積観察後悔を最小化することで、各エージェントの期待累積報酬を最大化するためにサンプリングアルゴリズムと観察プロトコルを設計する。
提案プロトコルでは,総累積後悔が対数有界であることを証明する。
解析的境界の精度を数値シミュレーションを用いて検証する。
関連論文リスト
- Distributionally Robust Inverse Reinforcement Learning for Identifying Multi-Agent Coordinated Sensing [13.440621354486906]
我々は、マルチエージェントセンシングシステムの実用機能を再構築するために、分布性に頑健な逆強化学習(IRL)アルゴリズムを導出する。
このロバストな推定と半無限の最適化再構成の等価性を証明し、計算解に対する一貫したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-22T17:44:32Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Learning the Pareto Front Using Bootstrapped Observation Samples [17.519167857253404]
本研究では,非支配的な平均報酬ベクトルを持つアームの集合を同定するアルゴリズムを提案する。
提案アルゴリズムのサンプル複雑性は対数係数まで最適である。
主要なコントリビューションは、新しい推定器で、ラウンド毎に、未知のパラメータの見積もりを複数のコンテキスト方向に沿って更新する。
論文 参考訳(メタデータ) (2023-05-31T18:15:09Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Linear Partial Monitoring for Sequential Decision-Making: Algorithms,
Regret Bounds and Applications [70.67112733968654]
部分的なモニタリングは、シーケンシャルな意思決定のための表現力のあるフレームワークである。
本稿では,部分的モニタリングをシンプルかつ統一的に分析し,そのモデルをさらに文脈的かつカーネル化された設定に拡張する。
論文 参考訳(メタデータ) (2023-02-07T18:58:25Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文 参考訳(メタデータ) (2021-09-30T02:29:21Z) - Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed
Rewards [24.983866845065926]
我々は、重い尾の報酬を持つマルチアームのバンディットを考えており、そのp$-thのモーメントは、定数$nu_p$が1pleq2$である。
本稿では,従来の情報として$nu_p$を必要としない新しいロバストな推定器を提案する。
提案した推定器の誤差確率は指数関数的に高速に減衰することを示す。
論文 参考訳(メタデータ) (2020-10-24T10:44:02Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Information Directed Sampling for Linear Partial Monitoring [112.05623123909895]
線形報酬と観測構造を持つ部分的監視のための情報指向サンプリング(IDS)を導入する。
IDSは、ゲームの正確な可観測性条件に依存する適応的な最悪の後悔率を達成する。
結果がコンテキストおよびカーネル化設定にまで拡張され、アプリケーションの範囲が大幅に増加する。
論文 参考訳(メタデータ) (2020-02-25T21:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。