論文の概要: On the Complexity of Representation Learning in Contextual Linear
Bandits
- arxiv url: http://arxiv.org/abs/2212.09429v1
- Date: Mon, 19 Dec 2022 13:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 15:17:08.252171
- Title: On the Complexity of Representation Learning in Contextual Linear
Bandits
- Title(参考訳): 文脈線形帯域における表現学習の複雑さについて
- Authors: Andrea Tirinzoni, Matteo Pirotta, Alessandro Lazaric
- Abstract要約: 表現学習は線形帯域よりも根本的に複雑であることを示す。
特に、与えられた表現の集合で学ぶことは、その集合の中で最悪の実現可能な表現で学ぶことよりも決して単純ではない。
- 参考スコア(独自算出の注目度): 110.84649234726442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contextual linear bandits, the reward function is assumed to be a linear
combination of an unknown reward vector and a given embedding of context-arm
pairs. In practice, the embedding is often learned at the same time as the
reward vector, thus leading to an online representation learning problem.
Existing approaches to representation learning in contextual bandits are either
very generic (e.g., model-selection techniques or algorithms for learning with
arbitrary function classes) or specialized to particular structures (e.g.,
nested features or representations with certain spectral properties). As a
result, the understanding of the cost of representation learning in contextual
linear bandit is still limited. In this paper, we take a systematic approach to
the problem and provide a comprehensive study through an instance-dependent
perspective. We show that representation learning is fundamentally more complex
than linear bandits (i.e., learning with a given representation). In
particular, learning with a given set of representations is never simpler than
learning with the worst realizable representation in the set, while we show
cases where it can be arbitrarily harder. We complement this result with an
extensive discussion of how it relates to existing literature and we illustrate
positive instances where representation learning is as complex as learning with
a fixed representation and where sub-logarithmic regret is achievable.
- Abstract(参考訳): 文脈線形帯域では、報酬関数は未知の報酬ベクトルと与えられたコンテキストアーム対の埋め込みの線形結合であると仮定される。
実際には、埋め込みはしばしば報酬ベクトルとして同時に学習されるため、オンライン表現学習問題につながる。
コンテキストバンディットにおける表現学習への既存のアプローチは、非常に汎用的(例えば、任意の関数クラスで学習するためのモデル選択技術やアルゴリズム)か、特定の構造(例えば、特定のスペクトル特性を持つネスト特徴や表現)に特化している。
その結果、文脈線形帯域における表現学習のコストの理解は依然として限られている。
本稿では,問題に対して体系的なアプローチを採り,インスタンス依存の観点から総合的研究を行う。
表現学習は線形帯域(つまり与えられた表現で学習する)よりも根本的に複雑であることを示す。
特に、与えられた表現の集合で学ぶことは、その集合の中で最悪の実現可能な表現で学ぶことよりも決して単純ではない。
この結果は,既存の文献とどのように関連しているかを論じるとともに,表現学習が一定の表現で学習するのと同じくらい複雑であり,非対数的後悔が達成可能であることを示す。
関連論文リスト
- Learned feature representations are biased by complexity, learning order, position, and more [4.529707672004383]
我々は表現と計算の間の驚くべき解離を探求する。
さまざまなディープラーニングアーキテクチャをトレーニングして、入力に関する複数の抽象的な特徴を計算します。
学習した特徴表現は、他の特徴よりも強い特徴を表現するために体系的に偏っていることが分かりました。
論文 参考訳(メタデータ) (2024-05-09T15:34:15Z) - Scalable Representation Learning in Linear Contextual Bandits with
Constant Regret Guarantees [103.69464492445779]
本稿では,スペクトル特性のよい表現を学習する表現学習アルゴリズムBanditSRLを提案する。
我々は、BanditSRLが任意の非regretアルゴリズムとペアリング可能であることを証明し、HLS表現が利用可能であれば常に後悔する。
論文 参考訳(メタデータ) (2022-10-24T10:04:54Z) - Fair Interpretable Learning via Correction Vectors [68.29997072804537]
我々は「補正ベクトル」の学習を中心とした公正表現学習のための新しい枠組みを提案する。
修正は単純に元の特徴にまとめられるので、各特徴に対して明確なペナルティやボーナスとして分析することができる。
このような方法で制約された公平な表現学習問題が性能に影響を与えないことを実験的に示す。
論文 参考訳(メタデータ) (2022-01-17T10:59:33Z) - Learning Algebraic Representation for Systematic Generalization in
Abstract Reasoning [109.21780441933164]
推論における体系的一般化を改善するためのハイブリッドアプローチを提案する。
我々はRaven's Progressive Matrices (RPM) の抽象的空間時間課題に対する代数的表現を用いたプロトタイプを紹介する。
得られた代数的表現は同型によって復号化して解を生成することができることを示す。
論文 参考訳(メタデータ) (2021-11-25T09:56:30Z) - DirectProbe: Studying Representations without Classifiers [21.23284793831221]
DirectProbeは、タスクのバージョン空間の概念に基づいて表現の幾何学を研究します。
いくつかの言語的タスクと文脈的埋め込みの実験は、訓練された分類器がなくても、DirectProbeは埋め込み空間がラベルの表現方法に光を当てることができることを示している。
論文 参考訳(メタデータ) (2021-04-13T02:40:26Z) - Leveraging Good Representations in Linear Contextual Bandits [131.91060536108301]
文脈的バンディット問題は複数の線形表現を許容することがある。
最近の研究は、絶え間ない問題依存の後悔を達成できる「良い」表現が存在することを示した。
最善の表現でlinucbを実行することで得られる後悔よりも、後悔は決して悪くありません。
論文 参考訳(メタデータ) (2021-04-08T14:05:31Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。