論文の概要: Multi-task Representation Learning for Pure Exploration in Bilinear
Bandits
- arxiv url: http://arxiv.org/abs/2311.00327v1
- Date: Wed, 1 Nov 2023 06:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:31:19.962012
- Title: Multi-task Representation Learning for Pure Exploration in Bilinear
Bandits
- Title(参考訳): バイリニアバンディットにおける純粋探索のためのマルチタスク表現学習
- Authors: Subhojyoti Mukherjee, Qiaomin Xie, Josiah P. Hanna, Robert Nowak
- Abstract要約: バイリニア・バンディットにおける純粋探索問題に対するマルチタスク表現学習について検討した。
バイリニア・バンディットでは、アクションは2つの異なる実体タイプから一対の腕の形を取る。
- 参考スコア(独自算出の注目度): 13.773838574776338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study multi-task representation learning for the problem of pure
exploration in bilinear bandits. In bilinear bandits, an action takes the form
of a pair of arms from two different entity types and the reward is a bilinear
function of the known feature vectors of the arms. In the \textit{multi-task
bilinear bandit problem}, we aim to find optimal actions for multiple tasks
that share a common low-dimensional linear representation. The objective is to
leverage this characteristic to expedite the process of identifying the best
pair of arms for all tasks. We propose the algorithm GOBLIN that uses an
experimental design approach to optimize sample allocations for learning the
global representation as well as minimize the number of samples needed to
identify the optimal pair of arms in individual tasks. To the best of our
knowledge, this is the first study to give sample complexity analysis for pure
exploration in bilinear bandits with shared representation. Our results
demonstrate that by learning the shared representation across tasks, we achieve
significantly improved sample complexity compared to the traditional approach
of solving tasks independently.
- Abstract(参考訳): バイリニアバンドにおける純粋探索問題に対するマルチタスク表現学習について検討する。
双線型包帯において、アクションは2つの異なる実体タイプから一対の腕の形を取り、報酬は既知の腕の特徴ベクトルの双線型関数である。
textit{multi-task bilinear bandit problem} では、共通の低次元線型表現を共有する複数のタスクに対して最適なアクションを見つけることを目的としている。
目的は、この特徴を活用して、すべてのタスクに最適な武器を識別するプロセスを迅速化することである。
実験的な設計手法を用いて,グローバル表現学習のためのサンプルアロケーションを最適化し,各タスクにおける最適なアーム対を特定するのに必要なサンプル数を最小化するアルゴリズムGOBLINを提案する。
私たちの知る限りでは、共有表現を持つ双線型バンドイットにおける純粋な探索のためのサンプル複雑性分析を提供する最初の研究です。
その結果,タスク間の共有表現を学習することで,従来の課題解決手法と比較して,サンプルの複雑さを著しく向上させることができた。
関連論文リスト
- The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback [12.388205905012423]
人間のフィードバックからの強化学習は、大きな言語モデルの性能向上に寄与している。
我々は、RLHFをコンテキストデュエルバンディット問題として定式化し、共通の線形表現を仮定する。
我々は、$varepsilon-$optimalを達成するために、ソースタスクのサンプルの複雑さを著しく低減することができることを証明した。
論文 参考訳(メタデータ) (2024-05-18T08:29:15Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Active Representation Learning for General Task Space with Applications
in Robotics [44.36398212117328]
本稿では,テキスト対話型表現学習のためのアルゴリズムフレームワークを提案する。
この枠組みの下では、双線型および特徴ベースの非線形ケースから一般的な非線形ケースまで、いくつかのインスタンス化を提供する。
我々のアルゴリズムは平均で20%-70%のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-15T08:27:50Z) - Multi-task Representation Learning for Pure Exploration in Linear
Bandits [34.67303292713379]
線形包帯(RepBAI-LB)におけるベストアーム識別のためのマルチタスク表現学習と文脈線形包帯(RepBPI-CLB)におけるベストポリシー識別について検討する。
これら2つの問題において、全てのタスクが共通の低次元線形表現を共有しており、我々のゴールは、この機能を活用して全てのタスクの最高のアーム(政治)識別プロセスを加速することである。
タスク間の共通表現を学習することで、我々のサンプルの複雑さはタスクを独立して解決するネイティブアプローチよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-02-09T05:14:48Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Non-Stationary Representation Learning in Sequential Linear Bandits [22.16801879707937]
非定常環境におけるマルチタスク意思決定のための表現学習について検討する。
本研究では,非定常表現を適応的に学習し,伝達することにより,効率的な意思決定を容易にするオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-13T06:13:03Z) - Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models [7.458639397686894]
効果的に探索する方法は、多腕バンディットにおける中心的な問題である。
メタデータに基づくマルチタスクバンディット問題を導入する。
ベイズ階層モデルのレンズを通してタスク関係を捉えることを提案する。
論文 参考訳(メタデータ) (2021-08-13T22:45:05Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。