論文の概要: Multi-Agent Bandit Learning through Heterogeneous Action Erasure
Channels
- arxiv url: http://arxiv.org/abs/2312.14259v1
- Date: Thu, 21 Dec 2023 19:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:02:46.868310
- Title: Multi-Agent Bandit Learning through Heterogeneous Action Erasure
Channels
- Title(参考訳): 異種行動消去チャンネルによるマルチエージェント帯域学習
- Authors: Osama A. Hanna, Merve Karakas, Lin F. Yang, Christina Fragouli
- Abstract要約: Multi-Armed Bandit (MAB) システムはマルチエージェント分散環境におけるアプリケーションの増加を目撃している。
このような設定では、アクションを実行するエージェントと、意思決定を行う一次学習者とのコミュニケーションは、学習プロセスを妨げる可能性がある。
本研究では,学習者が異種行動消去チャネルをまたいで分散エージェントと並列に対話できる新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 23.880960768160936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Armed Bandit (MAB) systems are witnessing an upswing in applications
within multi-agent distributed environments, leading to the advancement of
collaborative MAB algorithms. In such settings, communication between agents
executing actions and the primary learner making decisions can hinder the
learning process. A prevalent challenge in distributed learning is action
erasure, often induced by communication delays and/or channel noise. This
results in agents possibly not receiving the intended action from the learner,
subsequently leading to misguided feedback. In this paper, we introduce novel
algorithms that enable learners to interact concurrently with distributed
agents across heterogeneous action erasure channels with different action
erasure probabilities. We illustrate that, in contrast to existing bandit
algorithms, which experience linear regret, our algorithms assure sub-linear
regret guarantees. Our proposed solutions are founded on a meticulously crafted
repetition protocol and scheduling of learning across heterogeneous channels.
To our knowledge, these are the first algorithms capable of effectively
learning through heterogeneous action erasure channels. We substantiate the
superior performance of our algorithm through numerical experiments,
emphasizing their practical significance in addressing issues related to
communication constraints and delays in multi-agent environments.
- Abstract(参考訳): Multi-Armed Bandit (MAB) システムはマルチエージェント分散環境におけるアプリケーションの増加を目撃しており、協調MABアルゴリズムの進歩につながっている。
このような設定では、アクションを実行するエージェントと、意思決定を行う一次学習者とのコミュニケーションは、学習プロセスを妨げる可能性がある。
分散学習における主な課題は行動消去であり、しばしば通信遅延やチャネルノイズによって引き起こされる。
この結果、エージェントは学習者から意図したアクションを受け取らず、フィードバックを誤ったものにしてしまう可能性がある。
本稿では,行動消去確率が異なる異種行動消去チャネル間で,学習者が分散エージェントと並行して対話できる新しいアルゴリズムを提案する。
我々は,線形後悔を経験する既存のバンディットアルゴリズムとは対照的に,サブリニア後悔保証を保証するアルゴリズムを示す。
提案手法は、厳密な繰り返しプロトコルと、異種チャネル間の学習のスケジューリングに基づいて構築されている。
我々の知る限り、これらは異種行動消去チャネルを通して効果的に学習できる最初のアルゴリズムである。
我々は,マルチエージェント環境における通信制約や遅延の問題に対処する上で,その実用的意義を強調し,数値実験によるアルゴリズムの性能評価を行った。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints [0.0]
本稿では,分散上信頼度境界(UCB)アルゴリズム,関連UCBを提案する。
提案アルゴリズムは,各ラウンドにおいて,制約を満たすためにプルーニングされた動作セットを構築する。
合成データと実世界のMovielens-100Kデータに対するアルゴリズムの性能を実証的に検証した。
論文 参考訳(メタデータ) (2024-01-21T18:43:55Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Learning to Switch Among Agents in a Team via 2-Layer Markov Decision
Processes [41.04897149364321]
エージェント間の制御の切り替えを学習することで、既存の強化学習エージェントを異なる自動化レベルで動作させるアルゴリズムを開発した。
最適切替ポリシーに対するアルゴリズムの完全な後悔は、学習ステップの数に比例する。
障害物回避タスクにおけるシミュレーション実験は,問題の特定の構造を利用することにより,問題に依存しないアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-11T08:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。