論文の概要: Fast and Sample Efficient Multi-Task Representation Learning in Stochastic Contextual Bandits
- arxiv url: http://arxiv.org/abs/2410.02068v2
- Date: Wed, 20 Nov 2024 21:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:01.424381
- Title: Fast and Sample Efficient Multi-Task Representation Learning in Stochastic Contextual Bandits
- Title(参考訳): 確率的コンテキスト帯域における高速かつサンプルなマルチタスク表現学習
- Authors: Jiabin Lin, Shana Moothedath, Namrata Vaswani,
- Abstract要約: 本研究では,表現学習が文脈的包帯問題の学習効率を向上させる方法について検討する。
本稿では,予測勾配勾配(GD)と最小化推定器に基づく新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.342585350280535
- License:
- Abstract: We study how representation learning can improve the learning efficiency of contextual bandit problems. We study the setting where we play T contextual linear bandits with dimension d simultaneously, and these T bandit tasks collectively share a common linear representation with a dimensionality of r much smaller than d. We present a new algorithm based on alternating projected gradient descent (GD) and minimization estimator to recover a low-rank feature matrix. Using the proposed estimator, we present a multi-task learning algorithm for linear contextual bandits and prove the regret bound of our algorithm. We presented experiments and compared the performance of our algorithm against benchmark algorithms.
- Abstract(参考訳): 本研究では,表現学習が文脈的包帯問題の学習効率を向上させる方法について検討する。
我々は、T の文脈線型包帯を d 次元で同時に演奏する状況について検討し、これらの T バンディットタスクは、d よりもずっと小さい次元の r 次元の共通線型表現を集合的に共有する。
低ランクな特徴行列を復元するために、交互に投影される勾配降下(GD)と最小化推定器に基づく新しいアルゴリズムを提案する。
提案した推定器を用いて,線形文脈帯域に対するマルチタスク学習アルゴリズムを提案する。
実験を行い,提案アルゴリズムの性能をベンチマークアルゴリズムと比較した。
関連論文リスト
- A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - Non-Stationary Representation Learning in Sequential Linear Bandits [22.16801879707937]
非定常環境におけるマルチタスク意思決定のための表現学習について検討する。
本研究では,非定常表現を適応的に学習し,伝達することにより,効率的な意思決定を容易にするオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-13T06:13:03Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Efficient Contextual Bandits with Continuous Actions [102.64518426624535]
我々は、未知の構造を持つ連続的な動作を持つ文脈的包帯に対する計算的に抽出可能なアルゴリズムを作成する。
我々の還元型アルゴリズムは、ほとんどの教師付き学習表現で構成される。
論文 参考訳(メタデータ) (2020-06-10T19:38:01Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。