論文の概要: Contextual Bandits and Optimistically Universal Learning
- arxiv url: http://arxiv.org/abs/2301.00241v1
- Date: Sat, 31 Dec 2022 16:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 14:34:37.330301
- Title: Contextual Bandits and Optimistically Universal Learning
- Title(参考訳): 文脈帯域と最適ユニバーサル学習
- Authors: Moise Blanchard, Steve Hanneke and Patrick Jaillet
- Abstract要約: 私たちは一貫性に重点を置いています -- 最適な政策に比べて後悔を消します。
非i.d.文脈の大規模クラスでは、時間不変の報酬機構によらず一貫性が達成できることが示される。
- 参考スコア(独自算出の注目度): 32.14208422566497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the contextual bandit problem on general action and context
spaces, where the learner's rewards depend on their selected actions and an
observable context. This generalizes the standard multi-armed bandit to the
case where side information is available, e.g., patients' records or customers'
history, which allows for personalized treatment. We focus on consistency --
vanishing regret compared to the optimal policy -- and show that for large
classes of non-i.i.d. contexts, consistency can be achieved regardless of the
time-invariant reward mechanism, a property known as universal consistency.
Precisely, we first give necessary and sufficient conditions on the
context-generating process for universal consistency to be possible. Second, we
show that there always exists an algorithm that guarantees universal
consistency whenever this is achievable, called an optimistically universal
learning rule. Interestingly, for finite action spaces, learnable processes for
universal learning are exactly the same as in the full-feedback setting of
supervised learning, previously studied in the literature. In other words,
learning can be performed with partial feedback without any generalization
cost. The algorithms balance a trade-off between generalization (similar to
structural risk minimization) and personalization (tailoring actions to
specific contexts). Lastly, we consider the case of added continuity
assumptions on rewards and show that these lead to universal consistency for
significantly larger classes of data-generating processes.
- Abstract(参考訳): 一般行動と文脈空間における文脈バンディット問題を考える。そこでは学習者の報酬は、選択した行動と観察可能な文脈に依存する。
これにより、標準的なマルチアームバンディットを、患者の記録や顧客履歴などのサイド情報が利用できるケースに一般化し、パーソナライズされた治療を可能にする。
我々は、最適ポリシーと比較して、一貫性に注目する ― 消滅する後悔 - に焦点をあて、非自由な文脈の大規模なクラスにおいて、一貫性は時変報酬機構によらず達成可能であることを示す。
正確には、我々はまず、普遍的整合性を可能にするための文脈生成過程に必要かつ十分な条件を与える。
第2に,楽観的に普遍的な学習規則と呼ばれる,達成可能なときは常に普遍的な一貫性を保証するアルゴリズムが存在することを示す。
興味深いことに、有限作用空間では、普遍学習のための学習可能なプロセスは、以前に文献で研究された教師付き学習のフルフィードバック設定と全く同じである。
言い換えれば、学習は一般化コストなしで部分的なフィードバックで行うことができる。
アルゴリズムは、一般化(構造的リスク最小化と類似)とパーソナライズ(特定のコンテキストに対するアクションの調整)の間のトレードオフのバランスをとる。
最後に,報酬に連続性が付加された場合について考察し,データ生成過程のクラスが大幅に大きくなる場合に普遍的な一貫性をもたらすことを示す。
関連論文リスト
- Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity [84.12126298229866]
命令チューニング中のゼロショット一般化は非常に早い時期に行われることを示す。
また、「タスク」の制約を伴わずに、命令チューニング中に非常によく似た、きめ細かなトレーニングデータに遭遇することで、より一般化できることを示す。
インストラクションチューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータ間の類似性に基づく一般化の形式であることを示す。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。
提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-15T07:31:48Z) - Adversarial Rewards in Universal Learning for Contextual Bandits [32.14208422566497]
本研究では,学習者の報酬が行動や既知の文脈に依存する状況において,学習の限界について検討する。
対人報酬を伴う文脈的包帯に対する楽観的普遍学習は一般に不可能であることを示す。
論文 参考訳(メタデータ) (2023-02-14T16:54:22Z) - Modeling Multiple Views via Implicitly Preserving Global Consistency and
Local Complementarity [61.05259660910437]
複数の視点から表現を学習するために,グローバルな一貫性と相補性ネットワーク(CoCoNet)を提案する。
グローバルな段階では、重要な知識はビュー間で暗黙的に共有され、そのような知識を捕捉するためのエンコーダの強化は、学習された表現の識別性を向上させることができる。
最後に、局所的な段階において、横断的な識別的知識を結合する相補的要素を提案し、また、エンコーダが視点的識別性だけでなく、横断的な相補的情報も学習するように誘導する。
論文 参考訳(メタデータ) (2022-09-16T09:24:00Z) - Universal Regression with Adversarial Responses [26.308541799686505]
非I.d.インスタンスシーケンスの大規模クラスの下で、逆応答を伴う回帰のためのアルゴリズムを提供する。
我々は,学習者の強い一貫性を求める普遍的な一貫性を,値応答の制限なしに検討する。
論文 参考訳(メタデータ) (2022-03-09T22:10:30Z) - Universal Online Learning: an Optimistically Universal Learning Rule [0.0]
本研究では,非i.d.プロセスを用いたユニバーサルオンライン学習の課題について検討する。
k-nearest neighbor algorithm (kNN) は楽観的に普遍的ではなく, 1NN の新たな変種を示す。
論文 参考訳(メタデータ) (2022-01-16T02:13:47Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - When Is Generalizable Reinforcement Learning Tractable? [74.87383727210705]
複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。
異なる環境の相対的近接性を正確に特徴付ける構造条件である強近接を導入する。
この条件の自然な弱化の下では、rlは水平方向に指数関数的であるクエリの複雑さを必要とする。
論文 参考訳(メタデータ) (2021-01-01T19:08:24Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。