論文の概要: Multi-Task Representation Learning for Conservative Linear Bandits
- arxiv url: http://arxiv.org/abs/2605.12176v1
- Date: Tue, 12 May 2026 14:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.916812
- Title: Multi-Task Representation Learning for Conservative Linear Bandits
- Title(参考訳): 保守線形帯域に対するマルチタスク表現学習
- Authors: Jiabin Lin, Shana Moothedath,
- Abstract要約: 我々は、R が d と T の最小値よりもはるかに小さい次元 r の共通の低次元表現を共有する d 次元空間における T 線型バンドイットタスクを考える。
タスクは、特定の安全またはパフォーマンス要件を満たすアクションのみを許容するように制限され、保守的な(安全な)盗賊と呼ばれる。
制約を満たすとともに低ランクな特徴行列を復元する新しいアルゴリズムである Safe-Alternating Projected Gradient Descent and Minimization (Safe-AltGDmin) を導入する。
- 参考スコア(独自算出の注目度): 7.978226788634307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the Constrained Multi-Task Representation Learning (CMTRL) framework for linear bandits. We consider T linear bandit tasks in a d dimensional space, which share a common low-dimensional representation of dimension r, where r is much smaller than the minimum of d and T. Furthermore, tasks are constrained so that only actions meeting specific safety or performance requirements are allowed, referred to as conservative (safe) bandits. We introduce a novel algorithm, Safe-Alternating projected Gradient Descent and minimization (Safe-AltGDmin), to recover a low-rank feature matrix while satisfying the given constraints. Building on this algorithm, we propose a multi-task representation learning framework for conservative linear bandits and establish theoretical guarantees for its regret and sample complexity bounds. We presented experiments and compared the performance of our algorithm with benchmark algorithms.
- Abstract(参考訳): 本稿では,線形帯域に対する制約付きマルチタスク表現学習(CMTRL)フレームワークを提案する。
我々は、次元 r の共通の低次元表現を共有し、r が d と T の最小値よりもはるかに小さいような d 次元空間における T 線型バンドイットタスクを考える。
制約を満たすとともに低ランクな特徴行列を復元する新しいアルゴリズムである Safe-Alternating Projected Gradient Descent and Minimization (Safe-AltGDmin) を導入する。
本稿では,保守線形帯域に対するマルチタスク表現学習フレームワークを提案する。
実験を行い、ベンチマークアルゴリズムとアルゴリズムの性能を比較した。
関連論文リスト
- Learning Shared Representations for Multi-Task Linear Bandits [7.978226788634307]
マルチタスク表現学習は、関連するタスク間で共有潜在表現を学習するアプローチである。
特徴次元 d を持つ T の並列線型バンドイットタスクは、次元 r ll Mind,T$ の共通潜在表現を共有する。
我々は、共有低ランク表現を利用して意思決定を強化する、顔の不確かさリニア(OFUL)アルゴリズムの新たな最適化を提案する。
論文 参考訳(メタデータ) (2026-04-01T06:18:17Z) - Fast and Sample Efficient Multi-Task Representation Learning in Stochastic Contextual Bandits [15.342585350280535]
本研究では,表現学習が文脈的包帯問題の学習効率を向上させる方法について検討する。
本稿では,予測勾配勾配(GD)と最小化推定器に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T22:30:29Z) - Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - A Fast Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [55.2480439325792]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
本稿では,差分に基づく探索法 (CombGapE) アルゴリズムを提案する。
我々は,CombGapEアルゴリズムが,合成データセットと実世界のデータセットの両方において,既存の手法を大幅に上回っていることを数値的に示す。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - A Simple Unified Framework for High Dimensional Bandit Problems [33.139925285802825]
本稿では,アルゴリズムの上界を後悔する一般的な解析フレームワークを提案する。
本アルゴリズムは,異なる高次元バンディット問題に適用できることを示した。
論文 参考訳(メタデータ) (2021-02-18T21:35:32Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。