論文の概要: Decentralized Multi-player Multi-armed Bandits with No Collision
Information
- arxiv url: http://arxiv.org/abs/2003.00162v1
- Date: Sat, 29 Feb 2020 02:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:25:01.111685
- Title: Decentralized Multi-player Multi-armed Bandits with No Collision
Information
- Title(参考訳): 衝突情報のない分散マルチプレイヤーマルチアームバンディット
- Authors: Chengshuai Shi, Wei Xiong, Cong Shen, Jing Yang
- Abstract要約: 本稿では,分散マルチプレイヤーバンディット(MP-MAB)問題について検討する。
通信を含む誤り訂正(EC-SIC)を提案する。
フリップコードや修正ハミングコードなどの実用的なZチャネルコードによる実験は、合成と実世界の両方のデータセットにおけるEC-SICの優位性を実証している。
- 参考スコア(独自算出の注目度): 23.000116974718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The decentralized stochastic multi-player multi-armed bandit (MP-MAB)
problem, where the collision information is not available to the players, is
studied in this paper. Building on the seminal work of Boursier and Perchet
(2019), we propose error correction synchronization involving communication
(EC-SIC), whose regret is shown to approach that of the centralized stochastic
MP-MAB with collision information. By recognizing that the communication phase
without collision information corresponds to the Z-channel model in information
theory, the proposed EC-SIC algorithm applies optimal error correction coding
for the communication of reward statistics. A fixed message length, as opposed
to the logarithmically growing one in Boursier and Perchet (2019), also plays a
crucial role in controlling the communication loss. Experiments with practical
Z-channel codes, such as repetition code, flip code and modified Hamming code,
demonstrate the superiority of EC-SIC in both synthetic and real-world
datasets.
- Abstract(参考訳): 本稿では,各プレイヤーが衝突情報を入手できない分散確率的マルチアームバンディット(MP-MAB)問題について検討する。
boursier and perchet (2019) の独創的研究に基づいて, 集中確率的mp-mabと衝突情報との接触を後悔する誤り訂正同期(ec-sic)を提案する。
衝突情報のない通信フェーズが情報理論のZチャネルモデルに対応することを認識することにより、提案したEC-SICアルゴリズムは報酬統計の通信に最適な誤り訂正符号を適用する。
Boursier and Perchet (2019)で対数的に増加するのとは対照的に、固定メッセージ長は通信損失を制御する上でも重要な役割を果たす。
繰り返し符号、フリップ符号、ハミング符号などの実用的なZチャネル符号を用いた実験は、合成および実世界のデータセットにおいてEC-SICの優位性を示す。
関連論文リスト
- The Bandit Whisperer: Communication Learning for Restless Bandits [33.33435562661419]
我々は、レスレスマルチアームバンド(RMAB)における最初のコミュニケーション学習手法を提案する。
我々の設定では、腕は同様の腕からQ関数パラメータを受信し、行動ポリシーを導出し、Q関数の更新を操縦する。
両腕をまたいだメッセージの合体性を考慮し,その合体ユーティリティを分解するQネットワークアーキテクチャを用いて通信戦略を学習する。
論文 参考訳(メタデータ) (2024-08-11T03:39:46Z) - DGR: Tackling Drifted and Correlated Noise in Quantum Error Correction via Decoding Graph Re-weighting [14.817445452647588]
量子オーバーヘッドを伴わない効率的なデコードグラフエッジ再重み付け戦略を提案する。
DGRは、平均ケースノイズミスマッチで論理誤差率を3.6倍にし、最悪のケースミスマッチで5000倍以上の改善を行う。
論文 参考訳(メタデータ) (2023-11-27T18:26:16Z) - Cross-head mutual Mean-Teaching for semi-supervised medical image
segmentation [6.738522094694818]
SSMIS(Semi-supervised Medical Image segmentation)は、限られたラベル付きデータと豊富なラベルなしデータを活用することで、大幅な進歩を目撃している。
既存のSOTA(State-of-the-art)手法は、ラベルなしデータのラベルを正確に予測する際の課題に直面する。
強弱データ拡張を組み込んだ新しいクロスヘッド相互学習ネットワーク(CMMT-Net)を提案する。
論文 参考訳(メタデータ) (2023-10-08T09:13:04Z) - Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - Communication Efficient Distributed Learning for Kernelized Contextual
Bandits [58.78878127799718]
分散環境でのカーネル化されたコンテキスト帯域の学習における通信効率の課題に対処する。
我々は、エージェントが再現されたカーネルヒルベルト空間で協調的に探索できるようにすることにより、非線形報酬写像を考える。
我々は, 後悔とコミュニケーションの両コストにおいて, アルゴリズムがサブ線形レートを達成できることを厳格に証明した。
論文 参考訳(メタデータ) (2022-06-10T01:39:15Z) - Multi-player Multi-armed Bandits with Collision-Dependent Reward
Distributions [18.95281057580889]
本稿では,MP-MAB(Multi-player multi-armed bandits)問題について検討する。
既存の文献は常に、衝突が発生した場合、関連するプレイヤーにゼロ報酬を仮定するが、認知無線のような応用の場合、より現実的なシナリオは、衝突が平均報酬を減らし、必ずしもゼロにしないことである。
本稿では,暗黙的な通信をノイズチャネル問題に対する信頼性の高い通信としてモデル化する,誤り訂正衝突通信(EC3)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-25T14:39:34Z) - Composably secure data processing for Gaussian-modulated continuous
variable quantum key distribution [58.720142291102135]
連続可変量子鍵分布(QKD)は、ボソニックモードの二次構造を用いて、2つのリモートパーティ間の秘密鍵を確立する。
構成可能な有限サイズセキュリティの一般的な設定におけるホモダイン検出プロトコルについて検討する。
特に、ハイレート(非バイナリ)の低密度パリティチェックコードを使用する必要のあるハイシグネチャ・ツー・ノイズ・システマを解析する。
論文 参考訳(メタデータ) (2021-03-30T18:02:55Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z) - On No-Sensing Adversarial Multi-player Multi-armed Bandits with
Collision Communications [24.379502555329363]
我々は,MP-MAB問題について,新たな視点から検討した。
複数のプレイヤーの硬さに焦点を合わせるのではなく、攻撃性と呼ばれる新しい硬さの次元を導入する。
全ての敵は攻撃性に基づいて分類でき、プレイヤー間で強制協調通信を行うアルゴリズムのファミリーであるAdversary-Adaptive Collision-Communication (A2C2)を導入する。
論文 参考訳(メタデータ) (2020-11-02T16:21:18Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Decentralized Learning for Channel Allocation in IoT Networks over
Unlicensed Bandwidth as a Contextual Multi-player Multi-armed Bandit Game [134.88020946767404]
本稿では,プライマリセルネットワークにライセンスされたスペクトルに基づいて,アドホックなモノのインターネットネットワークにおける分散チャネル割り当て問題について検討する。
本研究では,この問題をコンテキスト型マルチプレイヤー・マルチアームバンディットゲームにマッピングし,試行錯誤による純粋に分散化された3段階ポリシー学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-30T10:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。