論文の概要: Meta Learning in Bandits within Shared Affine Subspaces
- arxiv url: http://arxiv.org/abs/2404.00688v1
- Date: Sun, 31 Mar 2024 13:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:20:51.077111
- Title: Meta Learning in Bandits within Shared Affine Subspaces
- Title(参考訳): 共有アフィン部分空間における帯域でのメタ学習
- Authors: Steven Bilaj, Sofien Dhouib, Setareh Maghsudi,
- Abstract要約: 低次元アフィン部分空間の周囲の濃度を利用して,複数の文脈的包帯課題をメタラーニングする問題について検討した。
本稿では,不確実性に直面した楽観主義の原理と,トンプソンサンプリングによる楽観主義の原理に基づいて,この問題を解決するための2つの戦略を提案し,理論的に分析する。
- 参考スコア(独自算出の注目度): 4.765541373485142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of meta-learning several contextual stochastic bandits tasks by leveraging their concentration around a low-dimensional affine subspace, which we learn via online principal component analysis to reduce the expected regret over the encountered bandits. We propose and theoretically analyze two strategies that solve the problem: One based on the principle of optimism in the face of uncertainty and the other via Thompson sampling. Our framework is generic and includes previously proposed approaches as special cases. Besides, the empirical results show that our methods significantly reduce the regret on several bandit tasks.
- Abstract(参考訳): 我々は,低次元アフィン部分空間の周囲の濃度を利用して,複数の文脈的確率的包帯課題をメタラーニングすることの課題について検討した。
本稿では,不確実性に直面した楽観主義の原理と,トンプソンサンプリングによる楽観主義の原理に基づいて,この問題を解決するための2つの戦略を提案し,理論的に分析する。
私たちのフレームワークは汎用的であり、これまで提案されていたアプローチを特殊なケースとして含んでいます。
さらに, 実験結果から, バンドイット作業における後悔度を著しく低下させることが示唆された。
関連論文リスト
- READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Thompson Sampling with Diffusion Generative Prior [20.69774298882897]
本稿では,基礎となるタスク分布を学習し,トンプソンサンプリングと学習したタスクを組み合わせて,新しいタスクをテスト時に処理する拡散モデルを提案する。
本アルゴリズムは,学習者の環境との相互作用から生じる雑音と,学習前の環境とのバランスを慎重に行うように設計されている。
また,現実的なバンディットシナリオを捉えるために,不完全および/またはノイズの多いデータからトレーニングを行う新しい拡散モデルトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-01-12T18:05:59Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - An Information-Theoretic Analysis of Bayesian Reinforcement Learning [44.025369660607645]
この定義を,カーネルパラメータが不明なマルコフ決定過程(MDP)としてモデル化した強化学習問題に特化させる。
我々の境界は、Russo と Van Roy による現在の情報理論境界の下から回復できることを示す。
論文 参考訳(メタデータ) (2022-07-18T16:28:01Z) - Multi-Environment Meta-Learning in Stochastic Linear Bandits [49.387421094105136]
単一環境ではなく混合分布からタスクパラメータを引き出す場合のメタ学習の可能性を検討する。
我々は,新しいタスクが発する環境の知識を必要とせずに,新しいタスクに対する後悔度を低く抑えるOFULアルゴリズムの正規化バージョンを提案する。
論文 参考訳(メタデータ) (2022-05-12T19:31:28Z) - On the pitfalls of entropy-based uncertainty for multi-class
semi-supervised segmentation [8.464487190628395]
半教師付き学習は、限られた監督で深層モデルを訓練するための魅力的な戦略として現れてきた。
本稿では,この戦略がマルチクラスコンテキストにおける最適以下の結果をもたらすことを実証する。
本稿では,クラス間の重なり合いを考慮に入れた分散距離に基づいて,マルチクラス設定における不確実性を計算する方法を提案する。
論文 参考訳(メタデータ) (2022-03-07T18:35:17Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Double-Linear Thompson Sampling for Context-Attentive Bandits [27.786695164493562]
我々は、様々な実践的応用を動機とした、Context-Attentive Banditとして知られるオンライン学習フレームワークを分析・拡張する。
本研究では, 線形トンプソンサンプリング法に基づいて, コンテキストアテンティブ・トンプソンサンプリング(CATS)と呼ばれる新しいアルゴリズムを導出し, コンテキストアテンティブ・バンディット設定に適用する。
論文 参考訳(メタデータ) (2020-10-15T13:01:19Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。