論文の概要: Federated Stochastic Bandit Learning with Unobserved Context
- arxiv url: http://arxiv.org/abs/2303.17043v1
- Date: Wed, 29 Mar 2023 22:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 15:02:49.625192
- Title: Federated Stochastic Bandit Learning with Unobserved Context
- Title(参考訳): 非観測文脈による確率的帯域学習
- Authors: Jiabin Lin and Shana Moothedath
- Abstract要約: 我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We study the problem of federated stochastic multi-arm contextual bandits
with unknown contexts, in which M agents are faced with different bandits and
collaborate to learn. The communication model consists of a central server and
the agents share their estimates with the central server periodically to learn
to choose optimal actions in order to minimize the total regret. We assume that
the exact contexts are not observable and the agents observe only a
distribution of the contexts. Such a situation arises, for instance, when the
context itself is a noisy measurement or based on a prediction mechanism. Our
goal is to develop a distributed and federated algorithm that facilitates
collaborative learning among the agents to select a sequence of optimal actions
so as to maximize the cumulative reward. By performing a feature vector
transformation, we propose an elimination-based algorithm and prove the regret
bound for linearly parametrized reward functions. Finally, we validated the
performance of our algorithm and compared it with another baseline approach
using numerical simulations on synthetic data and on the real-world movielens
dataset.
- Abstract(参考訳): 本研究では,mエージェントが異なるバンディトに直面し,協調して学習する,未知のコンテキストを持つ連帯確率的マルチアームコンテキストバンディットの問題について検討する。
コミュニケーションモデルは中央サーバから成り、エージェントは定期的に見積もりを中央サーバと共有し、後悔を最小化するために最適なアクションを選択することを学ぶ。
正確なコンテキストは観測不可能であり、エージェントはコンテキストの分布のみを観察していると仮定する。
このような状況は、例えば、コンテキスト自体がノイズ測定である場合や予測メカニズムに基づいて発生する。
我々のゴールは、エージェント間の協調学習を容易にして最適な行動列を選択し、累積報酬を最大化する分散フェデレーションアルゴリズムを開発することである。
特徴ベクトル変換を行うことにより,削除に基づくアルゴリズムを提案し,線形パラメトリ化報酬関数に対する後悔の束縛を証明する。
最後に,本アルゴリズムの性能を検証し,合成データと実世界の映画データセットの数値シミュレーションを用いて,他のベースライン手法と比較した。
関連論文リスト
- Multi-Agent Best Arm Identification in Stochastic Linear Bandits [0.7673339435080443]
固定予算シナリオ下での線形包帯における協調的ベストアーム識別の問題について検討する。
学習モデルでは、複数のエージェントがスターネットワークまたはジェネリックネットワークを介して接続され、線形バンディットインスタンスと並列に相互作用すると考えられる。
我々は、スターネットワークとジェネリックネットワークのためのアルゴリズムMaLinBAI-StarとMaLinBAI-Genをそれぞれ考案した。
論文 参考訳(メタデータ) (2024-11-20T20:09:44Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints [0.0]
本稿では,分散上信頼度境界(UCB)アルゴリズム,関連UCBを提案する。
提案アルゴリズムは,各ラウンドにおいて,制約を満たすためにプルーニングされた動作セットを構築する。
合成データと実世界のMovielens-100Kデータに対するアルゴリズムの性能を実証的に検証した。
論文 参考訳(メタデータ) (2024-01-21T18:43:55Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Online learning in bandits with predicted context [8.257280652461159]
エージェントがコンテキストの騒々しいバージョンにしかアクセスできない場合、コンテキスト的帯域幅の問題を考える。
この設定は、意思決定の真のコンテキストが守られない広範囲のアプリケーションによって動機付けられている。
本研究では,この設定において,軽度条件下でのサブ線形後悔保証を用いた最初のオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-26T02:33:54Z) - Distributed Stochastic Bandit Learning with Context Distributions [0.0]
本研究では,未知のコンテキストを持つ分散マルチアームコンテキスト帯域幅の問題について検討する。
本モデルでは, エージェントはコンテキスト分布のみを観察し, エージェントに正確なコンテキストが不明である。
我々のゴールは、累積報酬を最大化するために最適な行動列を選択する分散アルゴリズムを開発することである。
論文 参考訳(メタデータ) (2022-07-28T22:00:11Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Contextual Model Aggregation for Fast and Robust Federated Learning in
Edge Computing [88.76112371510999]
フェデレーション学習は、ネットワークエッジにおける分散機械学習の第一候補である。
既存のアルゴリズムは、性能の緩やかな収束や堅牢性の問題に直面している。
そこで本稿では,損失低減に対する最適コンテキスト依存境界を実現するためのコンテキストアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T21:42:31Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。