論文の概要: Scalable Representation Learning in Linear Contextual Bandits with
Constant Regret Guarantees
- arxiv url: http://arxiv.org/abs/2210.13083v1
- Date: Mon, 24 Oct 2022 10:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:32:01.390951
- Title: Scalable Representation Learning in Linear Contextual Bandits with
Constant Regret Guarantees
- Title(参考訳): 一定規則保証付き線形コンテキスト帯域におけるスケーラブル表現学習
- Authors: Andrea Tirinzoni, Matteo Papini, Ahmed Touati, Alessandro Lazaric,
Matteo Pirotta
- Abstract要約: 本稿では,スペクトル特性のよい表現を学習する表現学習アルゴリズムBanditSRLを提案する。
我々は、BanditSRLが任意の非regretアルゴリズムとペアリング可能であることを証明し、HLS表現が利用可能であれば常に後悔する。
- 参考スコア(独自算出の注目度): 103.69464492445779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of representation learning in stochastic contextual
linear bandits. While the primary concern in this domain is usually to find
realizable representations (i.e., those that allow predicting the reward
function at any context-action pair exactly), it has been recently shown that
representations with certain spectral properties (called HLS) may be more
effective for the exploration-exploitation task, enabling LinUCB to achieve
constant (i.e., horizon-independent) regret. In this paper, we propose
BanditSRL, a representation learning algorithm that combines a novel
constrained optimization problem to learn a realizable representation with good
spectral properties with a generalized likelihood ratio test to exploit the
recovered representation and avoid excessive exploration. We prove that
BanditSRL can be paired with any no-regret algorithm and achieve constant
regret whenever an HLS representation is available. Furthermore, BanditSRL can
be easily combined with deep neural networks and we show how regularizing
towards HLS representations is beneficial in standard benchmarks.
- Abstract(参考訳): 確率的文脈線形バンディットにおける表現学習の問題について検討する。
この領域の主要な関心事は、通常、実現可能な表現(すなわち、任意の文脈-作用対で報酬関数を正確に予測できるもの)を見つけることであるが、最近、特定のスペクトル特性を持つ表現(HLSと呼ばれる)が探索-探索作業においてより効果的であることが示され、LinUCBは一定の(地平線に依存しない)後悔を達成できる。
本稿では,新しい制約付き最適化問題と良好なスペクトル特性の学習を組み合わせた表現学習アルゴリズムbanditsrlを提案する。
我々は、BanditSRLが任意の非regretアルゴリズムとペアリング可能であることを証明し、HLS表現が利用可能であれば常に後悔する。
さらに、BanditSRLはディープニューラルネットワークと簡単に結合することができ、標準ベンチマークにおいてHLS表現への正規化がいかに有用かを示す。
関連論文リスト
- iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。
我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。
iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2024-06-04T18:15:44Z) - On the Complexity of Representation Learning in Contextual Linear
Bandits [110.84649234726442]
表現学習は線形帯域よりも根本的に複雑であることを示す。
特に、与えられた表現の集合で学ぶことは、その集合の中で最悪の実現可能な表現で学ぶことよりも決して単純ではない。
論文 参考訳(メタデータ) (2022-12-19T13:08:58Z) - Improving Self-Supervised Learning by Characterizing Idealized
Representations [155.1457170539049]
与えられたデータ拡張に不変なタスクに対して必要かつ十分な条件を証明します。
対照的に、我々のフレームワークは、従来の手法に対して単純だが重要な改善を規定している。
非コントラスト学習では、私たちのフレームワークを使って、シンプルで斬新な目的を導き出します。
論文 参考訳(メタデータ) (2022-09-13T18:01:03Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - Context Uncertainty in Contextual Bandits with Applications to
Recommender Systems [16.597836265345634]
本稿では,リカレントサーベイネットワーク(REN)と呼ばれる新しいタイプのリカレントニューラルネットワークを提案する。
我々の理論的分析は,RENが学習表現に不確実性がある場合でも,速度-線形準最適後悔を保てることを示す。
我々の実証研究は、RENが合成および実世界のレコメンデーションデータセットに満足な長期報酬を得られることを示した。
論文 参考訳(メタデータ) (2022-02-01T23:23:50Z) - Learning Temporally-Consistent Representations for Data-Efficient
Reinforcement Learning [3.308743964406687]
$k$-Step Latent (KSL) は表現の時間的一貫性を強制する表現学習法である。
KSLはトレーニング中に見つからない新しいタスクを一般化するエンコーダを生成する。
論文 参考訳(メタデータ) (2021-10-11T00:16:43Z) - Provably Efficient Representation Selection in Low-rank Markov Decision
Processes: From Online to Offline RL [84.14947307790361]
オンラインおよびオフラインの強化学習における表現学習のための効率的なアルゴリズムであるReLEXを提案する。
Re-UCBと呼ばれるReLEXのオンラインバージョンは、表現の選択なしでは最先端のアルゴリズムよりも常に悪い性能を発揮することを示す。
オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーできる場合、アルゴリズムが最適なポリシーを見つけることができることを示す。
論文 参考訳(メタデータ) (2021-06-22T17:16:50Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Leveraging Good Representations in Linear Contextual Bandits [131.91060536108301]
文脈的バンディット問題は複数の線形表現を許容することがある。
最近の研究は、絶え間ない問題依存の後悔を達成できる「良い」表現が存在することを示した。
最善の表現でlinucbを実行することで得られる後悔よりも、後悔は決して悪くありません。
論文 参考訳(メタデータ) (2021-04-08T14:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。