論文の概要: Multi-player Multi-armed Bandits with Collision-Dependent Reward
Distributions
- arxiv url: http://arxiv.org/abs/2106.13669v1
- Date: Fri, 25 Jun 2021 14:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 16:56:28.053916
- Title: Multi-player Multi-armed Bandits with Collision-Dependent Reward
Distributions
- Title(参考訳): 衝突依存報酬分布を有するマルチプレイヤーマルチアームバンディット
- Authors: Chengshuai Shi, Cong Shen
- Abstract要約: 本稿では,MP-MAB(Multi-player multi-armed bandits)問題について検討する。
既存の文献は常に、衝突が発生した場合、関連するプレイヤーにゼロ報酬を仮定するが、認知無線のような応用の場合、より現実的なシナリオは、衝突が平均報酬を減らし、必ずしもゼロにしないことである。
本稿では,暗黙的な通信をノイズチャネル問題に対する信頼性の高い通信としてモデル化する,誤り訂正衝突通信(EC3)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 18.95281057580889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a new stochastic multi-player multi-armed bandits (MP-MAB) problem,
where the reward distribution changes if a collision occurs on the arm.
Existing literature always assumes a zero reward for involved players if
collision happens, but for applications such as cognitive radio, the more
realistic scenario is that collision reduces the mean reward but not
necessarily to zero. We focus on the more practical no-sensing setting where
players do not perceive collisions directly, and propose the Error-Correction
Collision Communication (EC3) algorithm that models implicit communication as a
reliable communication over noisy channel problem, for which random coding
error exponent is used to establish the optimal regret that no communication
protocol can beat. Finally, optimizing the tradeoff between code length and
decoding error rate leads to a regret that approaches the centralized MP-MAB
regret, which represents a natural lower bound. Experiments with practical
error-correction codes on both synthetic and real-world datasets demonstrate
the superiority of EC3. In particular, the results show that the choice of
coding schemes has a profound impact on the regret performance.
- Abstract(参考訳): 本研究では,腕に衝突した場合に報酬分布が変化する確率的マルチプレイヤーマルチアームバンディット問題(mp-mab)について検討した。
既存の文献は常に、衝突が発生した場合、関連するプレイヤーにゼロ報酬を仮定するが、認知無線のような応用の場合、より現実的なシナリオは、衝突が平均報酬を減らし、必ずしもゼロにしないことである。
我々は,プレイヤーが直接衝突を知覚しない,より実用的なno-sensing設定に着目し,暗黙的通信をノイズチャネル問題に対する信頼性の高い通信としてモデル化する誤り訂正衝突通信(ec3)アルゴリズムを提案する。
最後に、コード長とデコードエラー率のトレードオフを最適化することは、自然の低い境界を表す集中的なMP-MABの後悔に近づくことを後悔させる。
合成データと実世界のデータセットの両方における実用的な誤り訂正コードによる実験は、ec3の優位を示している。
特に, コーディングスキームの選択が後悔のパフォーマンスに大きな影響を与えることが示された。
関連論文リスト
- Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Anti-Jamming Games for Multi-User Multi-Band Networks [23.9606979825413]
マルチユーザマルチバンドネットワークでは、ユーザとジャマーの間のゼロサムゲームが検討される。
ユーザのリワードは、通信速度、ホッピングコスト、妨害損失など、さまざまなパラメータでモデル化されている。
論文 参考訳(メタデータ) (2021-11-11T14:43:15Z) - Solving Multi-Arm Bandit Using a Few Bits of Communication [42.13277217013971]
マルチアームバンディット問題(マルチアームバンディット問題、MAB)は、報酬を逐次観察することで、一連のアクションの中からベストを選択することを目的とした、アクティブな学習フレームワークである。
分散エージェントが収集した報酬の通信を最適化することで,コミュニケーション問題に対処する。
汎用的な報酬量子化アルゴリズムQuBanを構築し、任意の(非回帰的な)MABアルゴリズムの上に適用して、新しい通信効率の対物を形成する。
論文 参考訳(メタデータ) (2021-11-11T06:23:16Z) - An Instance-Dependent Analysis for the Cooperative Multi-Player
Multi-Armed Bandit [93.97385339354318]
マルチプレイヤーマルチアーマッドバンドにおける情報共有と協調の課題について検討する。
まず, プレイヤーの最適度差を推定するために, 逐次的除去戦略への簡単な修正が可能であることを示す。
第2に,第1の結果を利用して,衝突の小さな報奨をプレイヤー間の協調に役立てる通信プロトコルを設計する。
論文 参考訳(メタデータ) (2021-11-08T23:38:47Z) - Congestion-aware Multi-agent Trajectory Prediction for Collision
Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。
学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。
実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:42:33Z) - Learning to Communicate and Correct Pose Errors [75.03747122616605]
本稿では、V2VNetで提案された設定について検討し、近くにある自動運転車が共同で物体検出と動き予測を協調的に行う方法を提案する。
本稿では,コミュニケーションを学習し,潜在的な誤りを推定し,それらの誤りについてコンセンサスを得るための新しいニューラルネットワーク推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-10T18:19:40Z) - On No-Sensing Adversarial Multi-player Multi-armed Bandits with
Collision Communications [24.379502555329363]
我々は,MP-MAB問題について,新たな視点から検討した。
複数のプレイヤーの硬さに焦点を合わせるのではなく、攻撃性と呼ばれる新しい硬さの次元を導入する。
全ての敵は攻撃性に基づいて分類でき、プレイヤー間で強制協調通信を行うアルゴリズムのファミリーであるAdversary-Adaptive Collision-Communication (A2C2)を導入する。
論文 参考訳(メタデータ) (2020-11-02T16:21:18Z) - Faster Game Solving via Predictive Blackwell Approachability: Connecting
Regret Matching and Mirror Descent [119.5481797273995]
FTRL (Follow-the-regularized-leader) とオンラインミラー降下 (OMD) は、オンライン凸最適化における最も一般的な後悔の最小化手法である。
RMとRM+はFTRLとOMDをそれぞれ実行し、ブラックウェルのアプローチ性ゲームにおいて、ハーフスペースを常に強制的に選択するアルゴリズムであることを示す。
18の共通ゼロサムワイドフォームベンチマークゲームを対象とした実験では,予測的RM+と反ファクト的後悔の最小化が,最速のアルゴリズムよりもはるかに高速に収束することを示した。
論文 参考訳(メタデータ) (2020-07-28T16:49:55Z) - Decentralized Multi-player Multi-armed Bandits with No Collision
Information [23.000116974718]
本稿では,分散マルチプレイヤーバンディット(MP-MAB)問題について検討する。
通信を含む誤り訂正(EC-SIC)を提案する。
フリップコードや修正ハミングコードなどの実用的なZチャネルコードによる実験は、合成と実世界の両方のデータセットにおけるEC-SICの優位性を実証している。
論文 参考訳(メタデータ) (2020-02-29T02:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。