Fugu-MT 論文翻訳(概要): Multitask Online Learning: Listen to the Neighborhood Buzz

論文の概要: Multitask Online Learning: Listen to the Neighborhood Buzz

arxiv url: http://arxiv.org/abs/2310.17385v1
Date: Thu, 26 Oct 2023 13:32:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 20:18:15.335115
Title: Multitask Online Learning: Listen to the Neighborhood Buzz
Title（参考訳）: マルチタスクオンライン学習:隣のバズを聴く
Authors: Juliette Achddou, Nicol\`o Cesa-Bianchi, Pierre Laforgue
Abstract要約: エージェントは任意の通信ネットワーク上で、隣人との情報交換しかできない環境で、マルチタスクオンライン学習を研究する。我々は,タスク類似性とネットワーク構造との相互作用に依存するこの設定のための分散アルゴリズムである$textttMT-COtextttOL$を紹介した。我々の分析によると、$textttMT-COtextttOL$の後悔は、エージェントが情報を共有していない場合に得られる境界よりも決して悪くはない(定数まで)。
参考スコア（独自算出の注目度）: 4.166623313248682
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study multitask online learning in a setting where agents can only exchange information with their neighbors on an arbitrary communication network. We introduce $\texttt{MT-CO}_2\texttt{OL}$, a decentralized algorithm for this setting whose regret depends on the interplay between the task similarities and the network structure. Our analysis shows that the regret of $\texttt{MT-CO}_2\texttt{OL}$ is never worse (up to constants) than the bound obtained when agents do not share information. On the other hand, our bounds significantly improve when neighboring agents operate on similar tasks. In addition, we prove that our algorithm can be made differentially private with a negligible impact on the regret when the losses are linear. Finally, we provide experimental support for our theory.
Abstract（参考訳）: エージェントが任意の通信ネットワーク上で隣人とのみ情報を交換できる環境で,マルチタスクオンライン学習について検討する。本稿では,タスクの類似点とネットワーク構造との相互作用に依存する分散アルゴリズムである$\texttt{MT-CO}_2\texttt{OL}$を紹介する。我々の分析によると、$\texttt{MT-CO}_2\texttt{OL}$の後悔は、エージェントが情報を共有していない場合に得られる境界よりも決して悪くはない。一方,隣のエージェントが同様のタスクをこなすと,境界が大幅に改善する。さらに,損失が線形である場合の後悔に無視できない影響を伴って,我々のアルゴリズムを微分プライベートにすることができることを証明した。最後に、我々の理論を実験的に支持する。

関連論文リスト

Distributed Online Optimization with Stochastic Agent Availability [14.801853435122904]
エージェントが各ステップで既知の確率$p$でアクティブである分散オンライン最適化の変種について検討する。我々は,そのネットワーク後悔を,アクティブエージェントの即時後悔の平均から分析する。
論文参考訳（メタデータ） (2024-11-25T15:20:01Z)
Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。 MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文参考訳（メタデータ） (2024-06-06T16:18:20Z)
Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-29T23:38:28Z)
Multitask Learning with No Regret: from Improved Confidence Bounds to Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-03T13:08:09Z)
Cooperative Multi-Agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation [77.09836892653176]
マルコフ決定過程の設定におけるマルチエージェント強化学習について検討した。本稿では非同期通信が可能な値に基づく証明可能な効率的なアルゴリズムを提案する。我々は、コラボレーションによってパフォーマンスを改善するために、最小の$Omega(dM)$通信の複雑さが必要であることを示す。
論文参考訳（メタデータ） (2023-05-10T20:29:29Z)
A Simple and Provably Efficient Algorithm for Asynchronous Federated Contextual Linear Bandits [77.09836892653176]
我々は,M$エージェントが相互に協力して,中央サーバの助けを借りて,グローバルなコンテキスト線形バンドイット問題を解決するためのフェデレーション付きコンテキスト線形バンドイットについて検討した。すべてのエージェントが独立して動作し、ひとつのエージェントとサーバ間の通信が他のエージェントの通信をトリガーしない非同期設定を考える。 texttFedLinUCBの後悔は$tildeO(dsqrtsum_m=1M T_m)$で、通信の複雑さは$tildeO(dM)であることを示す。
論文参考訳（メタデータ） (2022-07-07T06:16:19Z)
Provably Efficient Multi-Agent Reinforcement Learning with Fully Decentralized Communication [3.5450828190071655]
分散探索は強化学習におけるサンプリングの複雑さを低減する。各エージェントが分散メッセージパスプロトコルを使用すると,グループ性能が大幅に向上することを示す。グループ学習手法により多くのエージェントと情報共有を組み込むことで、最適ポリシーへの収束が加速することを示す。
論文参考訳（メタデータ） (2021-10-14T14:27:27Z)
Disentangling Transfer and Interference in Multi-Domain Learning [53.34444188552444]
マルチドメイン学習において,干渉や知識伝達が発生する状況について検討する。干渉と転送を分離する新しいメトリクスを提案し、実験プロトコルをセットアップする。我々は、CIFAR-100、MiniPlaces、Tiny-ImageNetデータセットでこの結果を示す。
論文参考訳（メタデータ） (2021-07-02T01:30:36Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)
Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文参考訳（メタデータ） (2021-02-13T12:57:51Z)
Accelerating Distributed Online Meta-Learning via Multi-Agent Collaboration under Limited Communication [24.647993999787992]
マルチエージェントオンラインメタラーニングフレームワークを提案し、同等の2レベルのネストオンライン凸最適化(OCO)問題としてキャストする。エージェントタスク平均的後悔の上限を特徴づけることで、マルチエージェントオンラインメタラーニングの性能は、限られた通信によるメタモデル更新において、エージェントが分散ネットワークレベルのOCOからどれだけの恩恵を受けられるかに大きく依存していることを示す。我々は、最適なシングルエージェント後悔$O(sqrtT)$上の$sqrt1/N$の速度アップの要因が$の後に示す。
論文参考訳（メタデータ） (2020-12-15T23:08:36Z)
Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文参考訳（メタデータ） (2020-12-01T07:33:00Z)
The Gossiping Insert-Eliminate Algorithm for Multi-Agent Bandits [20.259428328004738]
N$エージェントからなる分散マルチエージェントMulti Armed Bandit (MAB) のセットアップを検討する。我々のモデルでは、エージェントは任意の連結グラフ上で、ペアワイズなゴシップスタイルの通信を通じてメッセージを交換することで協調する。
論文参考訳（メタデータ） (2020-01-15T17:49:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。