論文の概要: Transfer Learning in Bandits with Latent Continuity
- arxiv url: http://arxiv.org/abs/2102.02472v1
- Date: Thu, 4 Feb 2021 08:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 15:53:23.229060
- Title: Transfer Learning in Bandits with Latent Continuity
- Title(参考訳): Latent Continuity を用いたバンディットの転送学習
- Authors: Hyejin Park and Seiyun Shin and Kwang-Sung Jun and Jungseul Ok
- Abstract要約: 本稿では,エージェントが先行タスクから次のタスクへ構造情報を転送することを学習しなければならない伝達学習環境について考察する。
本稿では,従来の課題に基づいて,リプシッツ定数を証明的かつ正確に推定する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 16.60101598919283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured stochastic multi-armed bandits provide accelerated regret rates
over the standard unstructured bandit problems. Most structured bandits,
however, assume the knowledge of the structural parameter such as Lipschitz
continuity, which is often not available. To cope with the latent structural
parameter, we consider a transfer learning setting in which an agent must learn
to transfer the structural information from the prior tasks to the next task,
which is inspired by practical problems such as rate adaptation in wireless
link. We propose a novel framework to provably and accurately estimate the
Lipschitz constant based on previous tasks and fully exploit it for the new
task at hand. We analyze the efficiency of the proposed framework in two folds:
(i) the sample complexity of our estimator matches with the
information-theoretic fundamental limit; and (ii) our regret bound on the new
task is close to that of the oracle algorithm with the full knowledge of the
Lipschitz constant under mild assumptions. Our analysis reveals a set of useful
insights on transfer learning for latent Lipschitzconstants such as the
fundamental challenge a learner faces. Our numerical evaluations confirm our
theoretical findings and show the superiority of the proposed framework
compared to baselines.
- Abstract(参考訳): 構造的確率的多重武装バンディットは、標準的な非構造的バンディット問題よりも高速な後悔率を提供する。
しかし、ほとんどの構造化バンディットは、しばしば利用できないリプシッツ連続性のような構造パラメータの知識を前提としている。
潜在構造パラメータに対処するために,無線リンクにおけるレート適応などの実用的問題に触発されて,エージェントが事前タスクから次のタスクへ構造情報を転送するために学習しなければならないトランスファー学習環境を検討する。
従来のタスクに基づいてLipschitz定数を明確かつ正確に推定し、新しいタスクに完全に活用するための新しいフレームワークを提案します。
提案されたフレームワークの効率を2つの折り目で分析する: (i) 推定器のサンプル複雑さは、情報理論の基本限界と一致する; (ii) 新しいタスクに縛られた私たちの後悔は、軽度の仮定の下でLipschitz定数の完全な知識を持つオラクルアルゴリズムのそれに近いです。
私たちの分析は、学習者が直面する基本的な課題などの潜在的なLipschitzconstantsの転送学習に関する有用な洞察のセットを明らかにします。
本研究では, 理論的知見を検証し, ベースラインと比較し, 提案フレームワークの優位性を示した。
関連論文リスト
- Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Learning Domain Adaptive Object Detection with Probabilistic Teacher [93.76128726257946]
確率的教師(PT)と呼ばれる,シンプルで効果的な枠組みを提案する。
PTは、段階的に進化する教師から未ラベルの目標データの不確実性を捉え、相互に有利な方法で生徒の学習を指導することを目的としている。
また,不確実性誘導型自己学習を促進するために,新しいエントロピー・フォカル・ロス(EFL)を提案する。
論文 参考訳(メタデータ) (2022-06-13T16:24:22Z) - CLeaR: An Adaptive Continual Learning Framework for Regression Tasks [2.043835539102076]
破滅的な忘れは、訓練されたニューラルネットワークモデルが、新しいタスクで再訓練されるときに、学習済みのタスクを徐々に忘れることを意味します。
多くの連続学習アルゴリズムは、分類タスクの漸進学習に非常に成功している。
本稿では,目標を予測し,継続学習によって自分自身を更新できる新しい方法論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T12:41:45Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z) - Optimal Learning for Structured Bandits [6.370905925442655]
本研究では,構造情報の存在下での不確実性の下でのオンライン意思決定の問題である,構造化されたマルチアームバンディットについて検討する。
本稿では,情報理論的後悔を一定要素まで低く抑え,幅広い構造情報を扱える新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-14T18:56:44Z) - A Constraint-Based Algorithm for the Structural Learning of
Continuous-Time Bayesian Networks [70.88503833248159]
連続時間ベイズネットワークの構造を学習するための制約に基づく最初のアルゴリズムを提案する。
我々は,条件付き独立性を確立するために提案した,異なる統計的テストと基礎となる仮説について論じる。
論文 参考訳(メタデータ) (2020-07-07T07:34:09Z) - Laplacian Regularized Few-Shot Learning [35.381119443377195]
少数ショットタスクに対するラプラシアン正規化推論を提案する。
私たちの推論はベースモデルを再トレーニングするものではなく、クエリセットのグラフクラスタリングとして見ることができます。
我々のLaplacianShotは、異なるモデル間で大きなマージンで最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2020-06-28T02:17:52Z) - Counterfactual Detection meets Transfer Learning [48.82717416666232]
既存のモデルアーキテクチャに最小限の適応で実装可能な,単純なバイナリ分類タスクであることを示す。
本稿では,先行者や後続者をエンティティ認識タスクとして処理するエンド・ツー・エンドパイプラインを導入し,それらをトークン分類に適用する。
論文 参考訳(メタデータ) (2020-05-27T02:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。