Fugu-MT 論文翻訳(概要): Best Arm Identification under Additive Transfer Bandits

論文の概要: Best Arm Identification under Additive Transfer Bandits

arxiv url: http://arxiv.org/abs/2112.04083v1
Date: Wed, 8 Dec 2021 02:20:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-09 14:36:33.875720
Title: Best Arm Identification under Additive Transfer Bandits
Title（参考訳）: 加算移動帯域におけるベストアーム識別
Authors: Ojash Neopane, Aaditya Ramdas, Aarti Singh
Abstract要約: 提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
参考スコア（独自算出の注目度）: 49.69203462561861
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider a variant of the best arm identification (BAI) problem in multi-armed bandits (MAB) in which there are two sets of arms (source and target), and the objective is to determine the best target arm while only pulling source arms. In this paper, we study the setting when, despite the means being unknown, there is a known additive relationship between the source and target MAB instances. We show how our framework covers a range of previously studied pure exploration problems and additionally captures new problems. We propose and theoretically analyze an LUCB-style algorithm to identify an $\epsilon$-optimal target arm with high probability. Our theoretical analysis highlights aspects of this transfer learning problem that do not arise in the typical BAI setup, and yet recover the LUCB algorithm for single domain BAI as a special case.
Abstract（参考訳）: 多腕包帯(MAB)には2組のアーム(ソースとターゲット)が存在するため、最適なアーム識別(BAI)問題の変種を考察し、ソースアームのみを引っ張りながら最適なターゲットアームを決定することを目的とする。本稿では,その手法が未知であるにも関わらず,ソースとターゲットのmabインスタンスの間に既知の付加的な関係がある場合について検討する。我々のフレームワークは、これまで研究されてきた純粋探索問題をどのようにカバーし、さらに新しい問題を捉えるかを示す。我々は,高確率で$\epsilon$-optimalターゲットアームを同定するlucb型アルゴリズムを提案し,理論的に解析する。理論解析では,典型的な bai では発生しないトランスファー学習問題の側面を強調すると同時に,単一領域 bai に対して lucb アルゴリズムを特殊ケースとして復元する。

関連論文リスト

Balancing Performance and Costs in Best Arm Identification [5.558508644689221]
本研究は、推奨アームの性能と、このアームを学習することで得られるコストとを明示的にバランスさせるリスク関数を最小化する新しいフォーマリズムを提案する。この枠組みでは、サンプリングフェーズの各観察にコストがかかり、アームを推奨すると、最適下腕を特定するためにパフォーマンスペナルティが生じる。性能ペナルティの2つの選択のリスク、誤識別の確率、単純な後悔のリスクについて理論的に下位境界を導出し、DBCAREと呼ばれるアルゴリズムを提案し、これらの下位境界をほぼ全ての問題インスタンス上のポリログ因子に一致させる。
論文参考訳（メタデータ） (2025-05-26T23:33:43Z)
An Algorithm for Fixed Budget Best Arm Identification with Combinatorial Exploration [3.9901365062418312]
我々は、K$$armed banditフレームワークにおける最適な腕識別問題を考察する。エージェントは1つのアームではなく、各タイムスロットでアームのサブセットをプレイすることができる。我々は、$log K$グループを構築し、最適なアームの存在を検出するための確率比テストを実行するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-03T15:10:08Z)
Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文参考訳（メタデータ） (2025-01-23T12:28:09Z)
Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題優雅にアマルガメートは、最小化とBAIを後悔している。エージェントの目標は、所定の信頼度で最高の腕を特定することである。二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文参考訳（メタデータ） (2024-09-27T16:46:02Z)
A General Framework for Clustering and Distribution Matching with Bandit Feedback [81.50716021326194]
我々は,帯域幅フィードバックを用いたクラスタリングと分散マッチング問題のための一般的なフレームワークを開発する。誤り確率が$delta$を超えない任意のオンラインアルゴリズムに対して、平均アームプル数に基づいて漸近的でない下界を導出する。
論文参考訳（メタデータ） (2024-09-08T12:19:12Z)
Representative Arm Identification: A fixed confidence approach to identify cluster representatives [7.459521930846415]
マルチアームバンディット(MAB)フレームワークにおける代表腕識別問題について検討する。 RAI問題は、最高の腕や、上位の$K$から$M$を識別するなど、いくつかのよく研究されたMAB問題としてカバーされている。本稿では,信頼区間の概念に基づく2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-26T11:47:52Z)
Pure Exploration for Constrained Best Mixed Arm Identification with a Fixed Budget [6.22018632187078]
固定予算の制約付きベスト・ミックスアーム識別(CBMAI)問題を導入する。目標は、与えられた学習予算$N$で、期待されるコストの制約によって期待される報酬を最大化する最高の混合アームを見つけることである。我々は、(最良の混合アームの支持の)誤識別に関する理論上の上限を提供し、予算$N$で指数関数的に崩壊することを示す。
論文参考訳（メタデータ） (2024-05-23T22:35:11Z)
Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文参考訳（メタデータ） (2023-08-29T18:18:21Z)
Differential Good Arm Identification [4.666048091337632]
本稿では,GAI(Good Arm Identification)と呼ばれる多腕バンディット問題の変種を対象とする。 GAIは純粋な探索用バンディット問題であり、できるだけ少ないサンプルで優れた腕を出力することを目的としている。本稿では,DGAI - 優れた腕識別アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-13T14:28:21Z)
Achieving the Pareto Frontier of Regret Minimization and Best Arm Identification in Multi-Armed Bandits [91.8283876874947]
本稿では,BoBW-lil'UCB$(gamma)$アルゴリズムの設計と解析を行う。 i) RMとBAIの両方の目的に対して最適なアルゴリズムを同時に実行できないことを示す。また、BoBW-lil'UCB$(gamma)$は、時間複雑性と後悔の点で競合よりも優れていることを示す。
論文参考訳（メタデータ） (2021-10-16T17:52:32Z)
Quantile Bandits for Best Arms Identification [10.294977861990203]
多腕バンディットにおける最適な腕識別タスクの変種について検討する。リスクと逆の意思決定の問題によって動機づけられた当社の目標は、固定予算内で最高の$tau$-quantileの値を持つ、$m$の武器のセットを特定することです。
論文参考訳（メタデータ） (2020-10-22T09:58:54Z)
Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed Bandits [4.760079434948198]
このようなパラメトリック情報を利用する特殊なアルゴリズムは、パラメータが誤って特定された場合、不整合学習性能が高いことを示す。主な貢献は, (i) 固定予算純探索条件下で統計的に堅牢なMABアルゴリズムの基本的な性能限界を確立すること, (ii) 二つの近似アルゴリズムのクラスを提案することである。
論文参考訳（メタデータ） (2020-08-28T13:43:12Z)
Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文参考訳（メタデータ） (2020-06-29T14:25:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。