論文の概要: Transfer Learning for Contextual Multi-armed Bandits
- arxiv url: http://arxiv.org/abs/2211.12612v2
- Date: Thu, 25 Jan 2024 02:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 18:48:18.921132
- Title: Transfer Learning for Contextual Multi-armed Bandits
- Title(参考訳): コンテキスト型マルチアームバンドの転送学習
- Authors: Changxiao Cai, T. Tony Cai, Hongzhe Li
- Abstract要約: 本研究では,コパラメトリックシフトモデルに基づく非文脈的マルチアームバンディットの移動学習問題について検討する。
ミニマックス後悔を実現する新しい伝達学習アルゴリズムを提案する。
対象領域の学習に補助的ソース領域からのデータを活用する利点を説明するため,シミュレーション研究を行った。
- 参考スコア(独自算出の注目度): 8.97013379960904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by a range of applications, we study in this paper the problem of
transfer learning for nonparametric contextual multi-armed bandits under the
covariate shift model, where we have data collected on source bandits before
the start of the target bandit learning. The minimax rate of convergence for
the cumulative regret is established and a novel transfer learning algorithm
that attains the minimax regret is proposed. The results quantify the
contribution of the data from the source domains for learning in the target
domain in the context of nonparametric contextual multi-armed bandits.
In view of the general impossibility of adaptation to unknown smoothness, we
develop a data-driven algorithm that achieves near-optimal statistical
guarantees (up to a logarithmic factor) while automatically adapting to the
unknown parameters over a large collection of parameter spaces under an
additional self-similarity assumption. A simulation study is carried out to
illustrate the benefits of utilizing the data from the auxiliary source domains
for learning in the target domain.
- Abstract(参考訳): 本稿では,非パラメトリック・コンテクスト・マルチアームド・バンディットの移動学習の課題について,目的のバンディット学習開始前にソース・バンディットから収集したデータを共変量シフトモデルを用いて検討する。
累積後悔に対する最小収束率を定式化し、その最小後悔を達成する新しい転置学習アルゴリズムを提案する。
この結果は,非パラメトリックなコンテキスト型マルチアームブレイディットの文脈において,対象領域で学習するためのソースドメインからのデータの寄与を定量化する。
未知の滑らかさへの適応の一般的な不可能さを考慮し,データ駆動型アルゴリズムを開発した。このアルゴリズムは,パラメータ空間の大規模な集合に対する未知のパラメータを自動的に適応させつつ,ほぼ最適な統計的保証(対数係数まで)を実現する。
対象領域の学習に補助的ソース領域からのデータを活用する利点を説明するためのシミュレーション研究を行った。
関連論文リスト
- Non-Stationary Learning of Neural Networks with Automatic Soft Parameter Reset [98.52916361979503]
非定常性を自動的にモデル化し適応する新しい学習手法を導入する。
非定常的・非政治的強化学習環境において,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2024-11-06T16:32:40Z) - Robust Transfer Learning with Unreliable Source Data [13.276850367115333]
対象関数とソース回帰関数との差を測定する「あいまい度レベル」と呼ばれる新しい量を導入する。
本稿では, 簡単な伝達学習手法を提案し, この新しい量が学習の伝達可能性にどのように関係しているかを示す一般的な定理を確立する。
論文 参考訳(メタデータ) (2023-10-06T21:50:21Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Estimation and inference for transfer learning with high-dimensional
quantile regression [3.4510296013600374]
本研究では,高次元量子レグレッションモデルの枠組みにおける伝達学習手法を提案する。
我々は、微妙に選択された転送可能なソースドメインに基づいて、転送学習推定器の誤差境界を確立する。
データ分割手法を採用することにより、負の転送を回避できる転送可能性検出手法を提案する。
論文 参考訳(メタデータ) (2022-11-26T14:40:19Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Adversarial Weighting for Domain Adaptation in Regression [4.34858896385326]
制御ドメイン適応の文脈において、回帰タスクを処理するための新しいインスタンスベースのアプローチを提案する。
本研究では,情報源重み付け方式とタスクを1つのフィードフォワード勾配下で学習する逆ネットワークアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-06-15T09:44:04Z) - Unsupervised Transfer Learning with Self-Supervised Remedy [60.315835711438936]
手動ラベルのない新しいドメインにディープネットワークを一般化することは、ディープラーニングにとって難しい。
事前学習された知識は、学習されたドメインや新しいドメインについて強い仮定をしなければ、うまく伝達しない。
本研究は,ラベル付き関連ドメインからの知識伝達により,新規ドメインにおける未ラベル対象データの識別潜在空間を学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-08T16:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。