Fugu-MT 論文翻訳(概要): Collaborative Regret Minimization in Multi-Armed Bandits

論文の概要: Collaborative Regret Minimization in Multi-Armed Bandits

arxiv url: http://arxiv.org/abs/2301.11442v1
Date: Thu, 26 Jan 2023 22:06:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-30 16:56:50.009344
Title: Collaborative Regret Minimization in Multi-Armed Bandits
Title（参考訳）: 多関節バンドにおける協調レグレスト最小化
Authors: Nikolai Karpov, Qin Zhang
Abstract要約: マルチエージェント強化学習における並列性と通信オーバーヘッドのトレードオフについて検討する。バンドイット理論の根本的な問題として,エージェント間のコミュニケーションのラウンド数と協調学習プロセスの後悔との間には,最初の,ほぼ厳密なトレードオフが存在する。
参考スコア（独自算出の注目度）: 6.861971769602314
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we study the collaborative learning model, which concerns the tradeoff between parallelism and communication overhead in multi-agent reinforcement learning. For a fundamental problem in bandit theory, regret minimization in multi-armed bandits, we present the first and almost tight tradeoffs between the number of rounds of communication between the agents and the regret of the collaborative learning process.
Abstract（参考訳）: 本稿では,マルチエージェント強化学習における並列性と通信オーバーヘッドのトレードオフに関する協調学習モデルについて検討する。バンディット理論における基本的な問題として,複数腕のバンディットにおける後悔の最小化について,エージェント間のコミュニケーションのラウンド数と協調学習プロセスの後悔のトレードオフについて述べる。

関連論文リスト

Low-rank Prompt Interaction for Continual Vision-Language Retrieval [47.323830129786145]
本稿では,マルチモーダル理解の問題に対処するために,低ランクプロンプトインタラクションを提案する。トレーニングパラメータがレイヤー数やタスク数にスケールすることを考えると、低ランクな相互作用強化分解を提案する。また、ロバストネストレーニングを確保するために、階層的な低ランクのコントラスト学習を採用しています。
論文参考訳（メタデータ） (2025-01-24T10:00:47Z)
Multi-agent assignment via state augmented reinforcement learning [3.4992411324493515]
本稿では,制約付き強化学習を通じて,マルチエージェント配置問題の矛盾する要件に対処する。我々は,2変数の振動をエージェントに利用してタスク間の交互化を行う状態拡張アプローチを再帰する。
論文参考訳（メタデータ） (2024-06-03T20:56:12Z)
Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文参考訳（メタデータ） (2024-05-25T10:25:48Z)
Optimal Regret Bounds for Collaborative Learning in Bandits [10.76667043339504]
一般的な協調型マルチエージェント・マルチアーム・バンディット・モデルにおける後悔について考察する。このモデルの下では、順序最適後悔境界を持つ最初のアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-15T10:36:13Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
Collaborative Multi-Agent Heterogeneous Multi-Armed Bandits [24.590517939890788]
我々は、N$エージェントからなる新しい協調設定について研究し、各エージェントがM$M$のマルチアームバンディットの1つを学習している。エージェント間の協調を容易にするアルゴリズムを2つのシナリオで開発する。
論文参考訳（メタデータ） (2023-05-30T06:35:49Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
On Regret-optimal Cooperative Nonstochastic Multi-armed Bandits [7.23389716633927]
我々は,FTRLアルゴリズムが,下界を一定要素に整合した個々の後悔の上界を有することを示す。また、エッジ遅延パラメータによるスケーリングに関して、適切な正規化器を持つFTRLアルゴリズムが最適であることを示す。
論文参考訳（メタデータ） (2022-11-30T16:46:41Z)
Provably Efficient Cooperative Multi-Agent Reinforcement Learning with Function Approximation [15.411902255359074]
定常的な通信予算を一定に保っても,ほぼ最適に学習できることを示す。私たちの仕事は、マルチエージェントコンテキストとマルチアームバンディット文学からMDP、強化学習まで、いくつかのアイデアを一般化します。
論文参考訳（メタデータ） (2021-03-08T18:51:00Z)
Exploring Zero-Shot Emergent Communication in Embodied Multi-Agent Populations [59.608216900601384]
本研究では,3次元環境下で関節を作動させることでコミュニケーションを学ぶエージェントについて検討する。現実的な仮定、意図の非一様分布、共通知識エネルギーコストにおいて、これらのエージェントは新規パートナーに一般化するプロトコルを見つけることができることを示す。
論文参考訳（メタデータ） (2020-10-29T19:23:10Z)
On Emergent Communication in Competitive Multi-Agent Teams [116.95067289206919]
外部のエージェントチームによるパフォーマンスの競争が社会的影響として作用するかどうかを検討する。以上の結果から,外部競争の影響により精度と一般化が向上し,コミュニケーション言語が急速に出現することが示唆された。
論文参考訳（メタデータ） (2020-03-04T01:14:27Z)
Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文参考訳（メタデータ） (2020-01-04T17:31:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。