Fugu-MT 論文翻訳(概要): Combinatorial Pure Exploration of Multi-Armed Bandit with a Real Number Action Class

論文の概要: Combinatorial Pure Exploration of Multi-Armed Bandit with a Real Number Action Class

arxiv url: http://arxiv.org/abs/2306.09202v1
Date: Thu, 15 Jun 2023 15:37:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-16 14:18:23.178771
Title: Combinatorial Pure Exploration of Multi-Armed Bandit with a Real Number Action Class
Title（参考訳）: 実数アクションクラスによる多腕バンディットの組合せ的純粋探索
Authors: Shintaro Nakamura and Masashi Sugiyama
Abstract要約: マルチアーム・バンディット・セッティング(MAB)における純粋探査(CPE)について検討する。プレイヤーは、theimphaction class $mathcalA$からthetimal emphaction $boldpi*$を見つけたいと思っています。我々は,R-CPE-MABに対する,我々の複雑性に対する試料の上限と,アクションクラスに依存した下限を示す。
参考スコア（独自算出の注目度）: 91.3755431537592
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The combinatorial pure exploration (CPE) in the stochastic multi-armed bandit setting (MAB) is a well-studied online decision-making problem: A player wants to find the optimal \emph{action} $\boldsymbol{\pi}^*$ from \emph{action class} $\mathcal{A}$, which is a collection of subsets of arms with certain combinatorial structures. Though CPE can represent many combinatorial structures such as paths, matching, and spanning trees, most existing works focus only on binary action class $\mathcal{A}\subseteq\{0, 1\}^d$ for some positive integer $d$. This binary formulation excludes important problems such as the optimal transport, knapsack, and production planning problems. To overcome this limitation, we extend the binary formulation to real, $\mathcal{A}\subseteq\mathbb{R}^d$, and propose a new algorithm. The only assumption we make is that the number of actions in $\mathcal{A}$ is polynomial in $d$. We show an upper bound of the sample complexity for our algorithm and the action class-dependent lower bound for R-CPE-MAB, by introducing a quantity that characterizes the problem's difficulty, which is a generalization of the notion \emph{width} introduced in Chen et al.[2014].
Abstract（参考訳）: 確率的多腕バンディット設定(英語版) (mab) におけるコンビネーション純粋探索 (cpe) はよく研究されたオンライン意思決定問題である: プレイヤーは特定のコンビネート構造を持つ腕の部分集合である \emph{action} $\boldsymbol{\pi}^*$ from \emph{action class} $\mathcal{a}$ を求める。 CPEはパス、マッチング、スパンニングツリーなどの多くの組合せ構造を表現できるが、既存の作業の多くは、ある正の整数 $d$ に対して、バイナリアクションクラス $\mathcal{A}\subseteq\{0, 1\}^d$ にのみフォーカスする。この二項定式化は、最適輸送、ナップサック、生産計画といった重要な問題を排除する。この制限を克服するために、二項式を real, $\mathcal{a}\subseteq\mathbb{r}^d$ に拡張し、新しいアルゴリズムを提案する。唯一の仮定は、$\mathcal{A}$のアクションの数は$d$の多項式であるということです。本稿では,提案アルゴリズムにおけるサンプル複雑性とR-CPE-MABに対する作用クラス依存下界の上限について,Chenらによって導入された概念であるemph{width}の一般化である,問題の難易度を特徴付ける量を導入することにより述べる。 [2014].

関連論文リスト

Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。 UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文参考訳（メタデータ） (2024-05-24T04:11:58Z)
Query-Efficient Correlation Clustering with Noisy Oracle [17.11782578276788]
共同マルチアーマッドバンド(PE-CMAB)における純粋探索のパラダイムに根ざしたオンライン学習問題の2つの新しい定式化を導入する。我々は,サンプリング戦略と古典近似アルゴリズムを組み合わせるアルゴリズムを設計し,それらの理論的保証について検討する。本研究は, PE-CMABの場合のクラスタリング時アルゴリズムの最初の例であり, 基礎となるオフライン最適化問題はNP-hardである。
論文参考訳（メタデータ） (2024-02-02T13:31:24Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。 CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文参考訳（メタデータ） (2023-10-24T09:47:32Z)
An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-30T15:57:14Z)
A Fast Algorithm for PAC Combinatorial Pure Exploration [21.376800678915558]
我々は,高い報酬を得た集合や腕の発見に対処する,CPE( Combinatorial Pure Exploration)の問題を考える。この問題に対する従来のアルゴリズムは非常に計算集約的であり、軽度に大きな問題であっても実用的ではない。計算量的に軽量であり,数万のアームを持つ問題に容易に適用可能な新しいCPEアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-12-08T09:52:56Z)
Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文参考訳（メタデータ） (2021-07-09T16:04:24Z)
Parallelizing Contextual Linear Bandits [82.65675585004448]
並列な)コンテキスト線形バンディットアルゴリズムの族を提示し、その遺残はそれらの完全シーケンシャルなアルゴリズムとほぼ同一である。また,これらの並列アルゴリズムについて,材料発見や生物配列設計の問題など,いくつかの領域で実証評価を行った。
論文参考訳（メタデータ） (2021-05-21T22:22:02Z)
Combinatorial Pure Exploration with Bottleneck Reward Function and its Extension to General Reward Functions [13.982295536546728]
ボトルネック報酬関数 (CPE-B) を用いたコンビネーションピュア探索問題について, 一定の信頼性と固定予算設定の下で検討する。固定信頼と固定バジェットのアルゴリズムを両立させ,固定信頼設定のサンプル複雑性を低く設定する。さらに、CPE-Bを一般報酬関数(CPE-G)に拡張し、非自明なサンプル複雑性を持つ一般非線形報酬関数に対する最初の固定信頼アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-24T06:47:51Z)
Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文参考訳（メタデータ） (2021-01-21T10:35:09Z)
An Empirical Process Approach to the Union Bound: Practical Algorithms for Combinatorial and Linear Bandits [34.06611065493047]
本稿では、信頼度と予算設定の固定化において、純探索線形帯域問題に対する近似アルゴリズムを提案する。サンプルの複雑性がインスタンスの幾何でスケールし、アームの数に縛られた明示的な結合を避けるアルゴリズムを提供する。また,固定予算設定における線形帯域幅に対する最初のアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-21T00:56:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。