論文の概要: Multi-task Representation Learning for Pure Exploration in Linear
Bandits
- arxiv url: http://arxiv.org/abs/2302.04441v2
- Date: Tue, 30 May 2023 04:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 01:27:43.082258
- Title: Multi-task Representation Learning for Pure Exploration in Linear
Bandits
- Title(参考訳): 線形バンディットにおける純粋探索のためのマルチタスク表現学習
- Authors: Yihan Du, Longbo Huang, Wen Sun
- Abstract要約: 線形包帯(RepBAI-LB)におけるベストアーム識別のためのマルチタスク表現学習と文脈線形包帯(RepBPI-CLB)におけるベストポリシー識別について検討する。
これら2つの問題において、全てのタスクが共通の低次元線形表現を共有しており、我々のゴールは、この機能を活用して全てのタスクの最高のアーム(政治)識別プロセスを加速することである。
タスク間の共通表現を学習することで、我々のサンプルの複雑さはタスクを独立して解決するネイティブアプローチよりもはるかに優れていることを示す。
- 参考スコア(独自算出の注目度): 34.67303292713379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success of representation learning in sequential decision
making, the study of the pure exploration scenario (i.e., identify the best
option and minimize the sample complexity) is still limited. In this paper, we
study multi-task representation learning for best arm identification in linear
bandits (RepBAI-LB) and best policy identification in contextual linear bandits
(RepBPI-CLB), two popular pure exploration settings with wide applications,
e.g., clinical trials and web content optimization. In these two problems, all
tasks share a common low-dimensional linear representation, and our goal is to
leverage this feature to accelerate the best arm (policy) identification
process for all tasks. For these problems, we design computationally and sample
efficient algorithms DouExpDes and C-DouExpDes, which perform double
experimental designs to plan optimal sample allocations for learning the global
representation. We show that by learning the common representation among tasks,
our sample complexity is significantly better than that of the native approach
which solves tasks independently. To the best of our knowledge, this is the
first work to demonstrate the benefits of representation learning for
multi-task pure exploration.
- Abstract(参考訳): 逐次意思決定における表現学習の成功にもかかわらず、純粋な探索シナリオ(すなわち、最良の選択肢を特定し、サンプルの複雑さを最小限に抑える)の研究は依然として限られている。
本稿では,リニアバンディット(RepBAI-LB)におけるベストアーム識別のためのマルチタスク表現学習とコンテキスト線形バンディット(RepBPI-CLB)におけるベストポリシー識別について検討する。
これらの2つの問題において、すべてのタスクは共通の低次元線型表現を共有しており、我々の目標は、この機能を利用してすべてのタスクの最高のアーム識別プロセスを加速することである。
これらの問題に対して、我々はDouExpDesとC-DouExpDesの2つの実験を行い、グローバル表現の学習に最適なサンプルアロケーションを計画するアルゴリズムを設計する。
タスク間の共通表現を学習することで,タスクを独立に解くネイティブアプローチよりも,サンプル複雑性が著しく向上することを示す。
私たちの知る限りでは、マルチタスク純粋探索における表現学習の利点を示す最初の研究である。
関連論文リスト
- Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Multi-task Representation Learning for Pure Exploration in Bilinear
Bandits [13.773838574776338]
バイリニア・バンディットにおける純粋探索問題に対するマルチタスク表現学習について検討した。
バイリニア・バンディットでは、アクションは2つの異なる実体タイプから一対の腕の形を取る。
論文 参考訳(メタデータ) (2023-11-01T06:30:45Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Active Representation Learning for General Task Space with Applications
in Robotics [44.36398212117328]
本稿では,テキスト対話型表現学習のためのアルゴリズムフレームワークを提案する。
この枠組みの下では、双線型および特徴ベースの非線形ケースから一般的な非線形ケースまで、いくつかのインスタンス化を提供する。
我々のアルゴリズムは平均で20%-70%のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-15T08:27:50Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。