論文の概要: Thompson Sampling for Robust Transfer in Multi-Task Bandits
- arxiv url: http://arxiv.org/abs/2206.08556v1
- Date: Fri, 17 Jun 2022 05:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 12:56:01.131212
- Title: Thompson Sampling for Robust Transfer in Multi-Task Bandits
- Title(参考訳): マルチタスクバンドにおけるロバスト転送のためのトンプソンサンプリング
- Authors: Zhi Wang, Chicheng Zhang, Kamalika Chaudhuri
- Abstract要約: 本研究では,オンラインマルチタスク学習における課題について検討する。
我々は、より一般的なオンラインマルチタスク学習プロトコルのためのトンプソンサンプリング(TS)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 36.82266781427533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of online multi-task learning where the tasks are
performed within similar but not necessarily identical multi-armed bandit
environments. In particular, we study how a learner can improve its overall
performance across multiple related tasks through robust transfer of knowledge.
While an upper confidence bound (UCB)-based algorithm has recently been shown
to achieve nearly-optimal performance guarantees in a setting where all tasks
are solved concurrently, it remains unclear whether Thompson sampling (TS)
algorithms, which have superior empirical performance in general, share similar
theoretical properties. In this work, we present a TS-type algorithm for a more
general online multi-task learning protocol, which extends the concurrent
setting. We provide its frequentist analysis and prove that it is also
nearly-optimal using a novel concentration inequality for multi-task data
aggregation at random stopping times. Finally, we evaluate the algorithm on
synthetic data and show that the TS-type algorithm enjoys superior empirical
performance in comparison with the UCB-based algorithm and a baseline algorithm
that performs TS for each individual task without transfer.
- Abstract(参考訳): 本研究では,同一だが同一のマルチアーム付きバンディット環境においてタスクが実行されるオンラインマルチタスク学習の問題点について検討する。
特に,学習者が知識の堅牢な伝達を通じて,複数のタスクにわたる全体的なパフォーマンスを改善する方法について検討する。
近年,全てのタスクが並列に処理される環境では,上位信頼度境界(UCB)に基づくアルゴリズムがほぼ最適性能を保証することが示されているが,実験性能に優れるトンプソンサンプリング(TS)アルゴリズムが同様の理論的特性を持つかどうかは不明である。
本研究では,より一般的なオンラインマルチタスク学習プロトコルのためのTS型アルゴリズムを提案する。
我々は、その頻繁な分析を行い、ランダム停止時間におけるマルチタスクデータアグリゲーションのための新しい濃度不等式を用いて、ほぼ最適であることを示す。
最後に,合成データを用いたアルゴリズムの評価を行い,ts型アルゴリズムは,ucbベースのアルゴリズムや,トランスファーを伴わないタスク毎にtsを実行するベースラインアルゴリズムと比較して,優れた経験的性能を享受できることを示す。
関連論文リスト
- Pretraining Decision Transformers with Reward Prediction for In-Context Multi-task Structured Bandit Learning [12.608461657195367]
本研究では,累積的後悔を最小限に抑える近似アルゴリズムの学習を目標とするマルチタスク構造化バンディット問題について検討する。
我々は、この共有構造を学習するために、トランスフォーマーを意思決定アルゴリズムとして使用し、テストタスクに一般化する。
提案アルゴリズムは,問題の根底にある構造を知ることなく,コンテキスト内でほぼ最適のポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T16:34:31Z) - Multi-Objective Optimization Using Adaptive Distributed Reinforcement Learning [8.471466670802815]
本稿では,多目的・マルチエージェント強化学習(MARL)アルゴリズムを提案する。
我々はエッジクラウドコンピューティングを用いたITS環境でアルゴリズムをテストする。
また,本アルゴリズムは,モジュール化および非同期オンライントレーニング手法により,様々な実用上の問題にも対処する。
論文 参考訳(メタデータ) (2024-03-13T18:05:16Z) - Energy-based learning algorithms for analog computing: a comparative
study [2.0937431058291933]
エネルギーベースの学習アルゴリズムは、最近アナログハードウェアとの互換性のため、関心が高まっている。
我々は、コントラスト学習(CL)、平衡伝播(EP)、結合学習(CpL)の7つの学習アルゴリズムを比較した。
負の摂動は正の摂動よりも優れており,その中心となるEPの変形を最良性能のアルゴリズムとして強調する。
論文 参考訳(メタデータ) (2023-12-22T22:49:58Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Multi-Task Learning with Prior Information [5.770309971945476]
本稿では,機能間の関係に関する事前知識を利用するマルチタスク学習フレームワークを提案する。
また、各特徴に対して変化する係数に対してペナルティを課し、それらの共通する特徴に類似した係数を持つことを保証します。
論文 参考訳(メタデータ) (2023-01-04T12:48:05Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Multi-task Over-the-Air Federated Learning: A Non-Orthogonal
Transmission Approach [52.85647632037537]
複数の学習タスクがエッジサーバ(ES)の協調の下でデータ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。
収束解析と数値計算の両方の結果から,MOAFLフレームワークは学習性能を著しく低下させることなく,複数のタスクのアップリンク帯域幅の消費を大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-27T13:09:32Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Distributed Primal-Dual Optimization for Online Multi-Task Learning [22.45069527817333]
本稿では,対数学習におけるタスク固有のノイズを捕捉し,実行時効率でプロジェクションフリーな更新を行う適応的原始双対アルゴリズムを提案する。
我々のモデルは、エネルギー不足や帯域制限のあるタスクが更新を延期できるようにするため、分散型の周期接続タスクに適しています。
実験結果から,提案モデルが実世界の様々なデータセットに対して極めて有効であることが確認された。
論文 参考訳(メタデータ) (2020-04-02T23:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。