論文の概要: Cooperative Online Learning
- arxiv url: http://arxiv.org/abs/2106.04982v1
- Date: Wed, 9 Jun 2021 11:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 00:09:05.606105
- Title: Cooperative Online Learning
- Title(参考訳): 協調型オンライン学習
- Authors: Tommaso R. Cesari, Riccardo Della Vecchia
- Abstract要約: エージェントネットワークを用いたオンライン学習環境について検討する。
完全, 包括的, 半包括的フィードバックの事例を考察する。
本研究は, 単エージェント学習の遅れを軽減し, 包括的フィードバックケースと包括的フィードバックケースの両方に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this preliminary (and unpolished) version of the paper, we study an
asynchronous online learning setting with a network of agents. At each time
step, some of the agents are activated, requested to make a prediction, and pay
the corresponding loss. Some feedback is then revealed to these agents and is
later propagated through the network. We consider the case of full, bandit, and
semi-bandit feedback. In particular, we construct a reduction to delayed
single-agent learning that applies to both the full and the bandit feedback
case and allows to obtain regret guarantees for both settings. We complement
these results with a near-matching lower bound.
- Abstract(参考訳): 本論文の予備的(かつ精査されていない)版では,エージェントのネットワークを用いた非同期オンライン学習環境について検討する。
それぞれの時間ステップで、エージェントのいくつかがアクティベートされ、予測を要求され、対応する損失を支払う。
いくつかのフィードバックがこれらのエージェントに公開され、後にネットワークを通じて伝達される。
完全, 包括的, 半包括的フィードバックの事例を考察する。
特に,フルとバンディットの両方のフィードバックケースに適用可能な遅延単一エージェント学習の削減を行い,両方の設定に対して後悔の保証を得ることを可能にした。
これらの結果をほぼ一致する下限で補完する。
関連論文リスト
- Impact of Decentralized Learning on Player Utilities in Stackelberg
Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Retrieval-Based Reconstruction For Time-series Contrastive Learning [67.90328731570712]
本稿では,Retrieval-Based Reconstruction (REBAR) のコントラスト学習について紹介する。
まず、畳み込み型クロスアテンションアーキテクチャを用いて、2つの異なる時系列間のREBAR誤差を計算する。
本稿では,REBARエラーが相互クラスメンバシップの予測子であることを示し,正負のラベル付けとしての利用を正当化する。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - Multitask Online Learning: Listen to the Neighborhood Buzz [4.166623313248682]
エージェントは任意の通信ネットワーク上で、隣人との情報交換しかできない環境で、マルチタスクオンライン学習を研究する。
我々は,タスク類似性とネットワーク構造との相互作用に依存するこの設定のための分散アルゴリズムである$textttMT-COtextttOL$を紹介した。
我々の分析によると、$textttMT-COtextttOL$の後悔は、エージェントが情報を共有していない場合に得られる境界よりも決して悪くはない(定数まで)。
論文 参考訳(メタデータ) (2023-10-26T13:32:49Z) - Flooding with Absorption: An Efficient Protocol for Heterogeneous
Bandits over Complex Networks [30.94416632071414]
我々は,各エージェントがそれぞれ異なるアームを持つバンドイットインスタンスを解くマルチエージェント設定について検討する。
彼らの目標は、あるネットワーク上の通信プロトコルを介して協力しながら、グループの後悔を最小限にすることである。
本稿では,複雑なネットワークの浸水による通信コストの低減を図るため,FwA(Flooding with absorption)と呼ばれる新しいプロトコルを提案する。
論文 参考訳(メタデータ) (2023-03-09T17:44:58Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Doubly Adversarial Federated Bandits [7.23389716633927]
本稿では,複数のエージェントが通信ネットワークを介して協調する,非確率的フェデレーション型多武装バンディット問題について検討する。
我々のアルゴリズムは、Cesa-Bianchi et alで提案されたオープンな質問に対して肯定的な答えを与える。
論文 参考訳(メタデータ) (2023-01-22T22:36:43Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。
最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。
実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文 参考訳(メタデータ) (2021-09-12T23:14:06Z) - Distributed Online Learning for Joint Regret with Communication
Constraints [17.080853582489073]
コミュニケーションの制約との共同後悔のための分散オンライン学習環境を検討する。
すべてのエージェントのサブセットは、グラフ内の隣人に$b$-bitメッセージを送信することができる。
アルゴリズムのコンパレータ適応特性を利用して、最適なパーティションの集合から最適なパーティションを学習する。
論文 参考訳(メタデータ) (2021-02-15T12:48:33Z) - Multi-Agent Online Optimization with Delays: Asynchronicity, Adaptivity,
and Optimism [33.116006446428756]
遅延と非同期性を考慮したマルチエージェントオンライン学習問題の研究を行った。
エージェントレベルとネットワークレベルの両方で、最適な後悔の境界を持つ適応学習戦略を導き出します。
論文 参考訳(メタデータ) (2020-12-21T18:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。