Fugu-MT 論文翻訳(概要): A Classification View on Meta Learning Bandits

論文の概要: A Classification View on Meta Learning Bandits

arxiv url: http://arxiv.org/abs/2504.04505v1
Date: Sun, 06 Apr 2025 14:25:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-16 01:21:47.83621
Title: A Classification View on Meta Learning Bandits
Title（参考訳）: メタ学習帯域の分類
Authors: Mirco Mutti, Jeongyeol Kwon, Shie Mannor, Aviv Tamar,
Abstract要約: 我々は,固定された盗賊の収集のために,解釈可能かつ高速な探索計画のメタラーニングを行うために,本来の分類図を用いている。これは$O (lambda-2 C_lambda) log2 (MH)$で、$M$は$mathbbM$、$lambda$は盗賊上の分離パラメータ、$C_lambda (mathbbM)$は新しい分類係数である。
参考スコア（独自算出の注目度）: 67.41789029784755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contextual multi-armed bandits are a popular choice to model sequential decision-making. E.g., in a healthcare application we may perform various tests to asses a patient condition (exploration) and then decide on the best treatment to give (exploitation). When humans design strategies, they aim for the exploration to be fast, since the patient's health is at stake, and easy to interpret for a physician overseeing the process. However, common bandit algorithms are nothing like that: The regret caused by exploration scales with $\sqrt{H}$ over $H$ rounds and decision strategies are based on opaque statistical considerations. In this paper, we use an original classification view to meta learn interpretable and fast exploration plans for a fixed collection of bandits $\mathbb{M}$. The plan is prescribed by an interpretable decision tree probing decisions' payoff to classify the test bandit. The test regret of the plan in the stochastic and contextual setting scales with $O (\lambda^{-2} C_{\lambda} (\mathbb{M}) \log^2 (MH))$, being $M$ the size of $\mathbb{M}$, $\lambda$ a separation parameter over the bandits, and $C_\lambda (\mathbb{M})$ a novel classification-coefficient that fundamentally links meta learning bandits with classification. Through a nearly matching lower bound, we show that $C_\lambda (\mathbb{M})$ inherently captures the complexity of the setting.
Abstract（参考訳）: コンテキスト多重武装の盗賊は、シーケンシャルな意思決定をモデル化する一般的な選択である。例えば、医療アプリケーションでは、さまざまなテストを行い、患者の状態(探索)を評価し、最適な治療(探索)を決定することができる。人間が戦略を設計する際には、患者の健康が危うく、その過程を監督する医師にとって容易に解釈できるため、探索が速くなることを目標としている。しかし、一般的なバンディットアルゴリズムはそうではない:$\sqrt{H}$以上の探索スケールと決定戦略による後悔は、不透明な統計的考察に基づいている。本稿では,固定された帯域の集合に対するメタラーニングと高速探索計画のメタラーニングを行うために,もともとの分類図を用いる。計画は、テストバンディットを分類する決定の支払いを調査する解釈可能な決定木によって規定される。 O (\lambda^{-2} C_{\lambda} (\mathbb{M}) \log^2 (MH))$, $M$ the size of $\mathbb{M}$, $\lambda$ a separation parameter over the bandits, $C_\lambda (\mathbb{M})$ メタラーニングの帯域と分類を根本的に結びつける新しい分類係数。ほぼ一致する下界を通して、$C_\lambda (\mathbb{M})$が本質的に設定の複雑さを捉えていることを示す。

関連論文リスト

On the optimal regret of collaborative personalized linear bandits [15.661920010658626]
本稿では,協調的パーソナライズされたリニアバンディットにおける最適後悔について検討する。我々は,エージェント数,相互作用ラウンド,不均一性の程度が共に後悔にどう影響するかを特徴付ける情報理論の下限を提供する。私たちの結果は、いつ、いつ、コラボレーションが最適な後悔の束縛でどのように役立つか、完全な特徴を与えます。
論文参考訳（メタデータ） (2025-06-19T00:56:31Z)
Testing the Feasibility of Linear Programs with Bandit Feedback [53.40256244941895]
我々は,低回帰アルゴリズムと反復対数の漸近法則に基づくテストを開発する。このテストが信頼できることを証明し、信号レベルに適応する'$Gamma,$ of any instance。信頼性テストのサンプルコストに対して、最小限の$(Omegad/Gamma2)$で補う。
論文参考訳（メタデータ） (2024-06-21T20:56:35Z)
Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文参考訳（メタデータ） (2024-04-09T04:45:18Z)
Thompson Sampling for Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
本稿では,マルチアームバンディット(R-CPE-MAB)問題の実測値について検討する。一般トンプソンサンプリング探索法(GenTS-Explore)と呼ばれるアルゴリズムを導入する。これは,アクションセットのサイズが指数関数的に$d$で大きい場合でも動作可能な,最初のアルゴリズムである。
論文参考訳（メタデータ） (2023-08-20T11:56:02Z)
A Fast Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [55.2480439325792]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。本稿では,差分に基づく探索法 (CombGapE) アルゴリズムを提案する。我々は,CombGapEアルゴリズムが,合成データセットと実世界のデータセットの両方において,既存の手法を大幅に上回っていることを数値的に示す。
論文参考訳（メタデータ） (2023-06-15T15:37:31Z)
Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文参考訳（メタデータ） (2023-03-30T02:51:00Z)
Non-stationary Bandits and Meta-Learning with a Small Set of Optimal Arms [30.024167992890916]
そこで本研究では,学習者が200ドル(約1万2000円)の帯域幅のタスクに直面する決定について検討する。敵は各タスクの最適なアームを、M$アームのより小さな(しかし未知の)サブセットで選択することを制約される。境界は既知のもの(非定常的メタラーニング設定)、あるいは未知のもの(非定常的バンディット設定)である。
論文参考訳（メタデータ） (2022-02-25T22:28:01Z)
Maillard Sampling: Boltzmann Exploration Done Optimally [11.282341369957216]
この論文は、$K$武装バンディット問題に対するランダム化アルゴリズムを示す。メイラードサンプリング(MS)は、各アームを閉じた形で選択する確率を計算する。最適性を失わずに$sqrtKTlogK$に制限された最小値を改善するMS$+$というMSの変種を提案する。
論文参考訳（メタデータ） (2021-11-05T06:50:22Z)
Nearly Dimension-Independent Sparse Linear Bandit over Small Action Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文参考訳（メタデータ） (2020-09-04T04:10:39Z)
Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-17T22:32:19Z)
Contextual Blocking Bandits [35.235375147227124]
我々は,多腕バンディット問題の新たな変種について検討し,各ステップごとに,腕の平均報酬を決定する独立したサンプルコンテキストをプレイヤーが観察する。アームを再生することで(すべてのコンテキストにわたって)将来の時間ステップの固定および既知の回数をブロックする。我々は、$mathcalO(log T)$-regret w.r.t.$alpha$regret戦略を$Tタイムステップで保証し、$Omega(log(T)$low boundと一致する UCB ベースのフル情報アルゴリズムの変種を提案する。
論文参考訳（メタデータ） (2020-03-06T20:34:42Z)
Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文参考訳（メタデータ） (2020-03-03T18:46:34Z)
Regret Minimization in Stochastic Contextual Dueling Bandits [40.17224226373741]
我々は、コンテキスト設定において、$K$武装デュエルバンディットの問題を考察する。提案手法は, それぞれ, 後悔の保証を施した2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-20T06:36:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。