Fugu-MT 論文翻訳(概要): Satisficing Exploration in Bandit Optimization

論文の概要: Satisficing Exploration in Bandit Optimization

arxiv url: http://arxiv.org/abs/2406.06802v1
Date: Mon, 10 Jun 2024 21:15:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 20:05:58.669538
Title: Satisficing Exploration in Bandit Optimization
Title（参考訳）: 帯域最適化における満足度探索
Authors: Qing Feng, Tianyi Ma, Ruihao Zhu,
Abstract要約: 本稿では,LowEr Confidence bound TestingによるSatificing Explorationのための一般的なアルゴリズムテンプレートを提案する。われわれはこの託宣を利用して、後悔の少ない潜在的な満足のいく腕を特定する。補体として、SELECTは非実現可能な場合のオラクルと同じ(標準的な)後悔の保証を享受する。
参考スコア（独自算出の注目度）: 5.03122566946086
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Motivated by the concept of satisficing in decision-making, we consider the problem of satisficing exploration in bandit optimization. In this setting, the learner aims at selecting satisficing arms (arms with mean reward exceeding a certain threshold value) as frequently as possible. The performance is measured by satisficing regret, which is the cumulative deficit of the chosen arm's mean reward compared to the threshold. We propose SELECT, a general algorithmic template for Satisficing Exploration via LowEr Confidence bound Testing, that attains constant satisficing regret for a wide variety of bandit optimization problems in the realizable case (i.e., a satisficing arm exists). Specifically, given a class of bandit optimization problems and a corresponding learning oracle with sub-linear (standard) regret upper bound, SELECT iteratively makes use of the oracle to identify a potential satisficing arm with low regret. Then, it collects data samples from this arm, and continuously compares the LCB of the identified arm's mean reward against the threshold value to determine if it is a satisficing arm. As a complement, SELECT also enjoys the same (standard) regret guarantee as the oracle in the non-realizable case. Finally, we conduct numerical experiments to validate the performance of SELECT for several popular bandit optimization settings.
Abstract（参考訳）: 意思決定における満足度の概念に触発され,帯域最適化における満足度探索の問題を考える。この設定では、学習者は、満足度の高いアーム(一定の閾値を超える平均報酬を持つアーム)をできるだけ頻繁に選択することを目的とする。この性能は、選択した腕の平均報酬の累積損失である後悔を満足させることによって測定される。本稿では,SELECTを提案する。SELECTは,低信頼境界試験による探索を満足させる汎用的なアルゴリズムテンプレートであり,実現可能な場合(つまり,満足度アームが存在する)において,幅広い帯域最適化問題に対して常に満足のいく後悔を実現する。具体的には、一連の帯域最適化問題と、サブ線形(標準)後悔の上界を持つ学習オラクルが与えられた場合、SELECTは、そのオラクルを反復的に使用して、後悔の少ない潜在的な満足する腕を特定する。そして、この腕からデータサンプルを収集し、識別された腕の平均報酬のLCBをしきい値と比較し、それが満足のいく腕かどうかを判定する。補体として、SELECTは非実現可能な場合のオラクルと同じ(標準的な)後悔の保証も享受する。最後に,SELECTの性能評価のための数値実験を行った。

関連論文リスト

Robust Satisficing Gaussian Process Bandits Under Adversarial Attacks [7.701333337093469]
そこでは、敵条件下であっても、事前に定義された性能閾値$tau$を一貫して達成することが目標である。本稿では,頑健な充足の異なる定式化に基づく2つの新しいアルゴリズムを提案し,それらが一般的な頑健な充足フレームワークの例であることを示す。具体的には、2つの残念な境界を導き出す: 1つは、敵の特定の条件と満足しきい値$tau$を仮定し、もう1つは摂動の規模でスケールするが、敵の仮定を必要としない。
論文参考訳（メタデータ） (2025-06-02T13:04:18Z)
Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題優雅にアマルガメートは、最小化とBAIを後悔している。エージェントの目標は、所定の信頼度で最高の腕を特定することである。二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文参考訳（メタデータ） (2024-09-27T16:46:02Z)
Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文参考訳（メタデータ） (2024-02-23T06:27:12Z)
Contextual Bandits with Stage-wise Constraints [46.412612374393895]
段階的制約(各ラウンドにおける制約)の存在下での文脈的包帯について検討する。本稿では,この問題に対する高信頼度有界アルゴリズムを提案し,それに対するT$ラウンドの後悔を証明した。
論文参考訳（メタデータ） (2024-01-15T23:58:21Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。 SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文参考訳（メタデータ） (2023-12-13T11:08:25Z)
Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文参考訳（メタデータ） (2023-10-02T08:15:52Z)
Proportional Response: Contextual Bandits for Simple and Cumulative Regret Minimization [29.579719765255927]
本稿では,文脈的帯域幅設定のための効率的な帯域幅アルゴリズムのファミリーを提案する。我々のアルゴリズムは任意の関数クラスで動作し、不特定性をモデル化するのに堅牢で、連続したアーム設定で使用できます。
論文参考訳（メタデータ） (2023-07-05T08:34:54Z)
Best Arm Identification with Fairness Constraints on Subpopulations [11.349636358427485]
サブポピュレーション(BAICS)におけるフェアネス制約によるベストアーム識別の問題を定式化し,解析し,解決する。 BAICSの問題は、選択された腕が全てのサブ集団に公平でなければならないことである。我々は、閉形式表現を用いて、標本複雑性の最も達成可能な下界を証明した。
論文参考訳（メタデータ） (2023-04-08T19:41:02Z)
Reward Learning as Doubly Nonparametric Bandits: Optimal Design and Scaling Laws [22.099915149343957]
本稿では、報酬学習と関連する最適実験設計問題を研究するための理論的枠組みを提案する。まず、リッジ回帰に基づく単純なプラグイン推定器の非漸近的過剰リスク境界を導出する。次に、クエリセットの選択に関してこれらのリスク境界を最適化し、有限サンプル統計率を得ることにより、クエリ設計問題を解決する。
論文参考訳（メタデータ） (2023-02-23T22:07:33Z)
A Unifying Framework for Online Optimization with Long-Term Constraints [62.35194099438855]
我々は,意思決定者が長期的制約の対象となる一連の意思決定をしなければならないオンライン学習問題について検討する。目標は、全報酬を最大化し、同時に、$T$ラウンド全体で小さな累積違反を達成することである。本稿では,この一般クラス問題に対して,未知のモデルに基づいて報酬と制約が選択された場合と,各ラウンドで敵が選択した場合の双方において,最良世界型アルゴリズムを提示する。
論文参考訳（メタデータ） (2022-09-15T16:59:19Z)
Reinforcement Learning in Linear MDPs: Constant Regret and Representation Selection [136.4014229319618]
線形構造を持つ有限水平マルコフ決定過程(MDPs)における後悔最小化における状態-作用値関数の表現の役割について検討する。まず,線形報酬関数を持つ任意のMDPにおいて,一貫した後悔を実現するために,Universally spaning optimal features (UNISOFT) と呼ばれる表現に必要条件を導出する。
論文参考訳（メタデータ） (2021-10-27T22:07:08Z)
Break your Bandit Routine with LSD Rewards: a Last Switch Dependent Analysis of Satiation and Seasonality [6.146046338698175]
そこで本研究では,腕が最後に動作を切り替えて以降の時間経過によって,腕の期待される報酬が完全に決定される,新たな非定常バンディット問題を導入する。我々のモデルは、遅延依存報酬の概念を一般化し、報酬関数に関するほとんどの仮定を緩和する。我々はアルゴリズムを証明し、最適な非定常ポリシーに関してその後悔を証明した。
論文参考訳（メタデータ） (2021-10-22T14:53:13Z)
On Lower Bounds for Standard and Robust Gaussian Process Bandit Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文参考訳（メタデータ） (2020-08-20T03:48:14Z)
Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文参考訳（メタデータ） (2020-08-10T08:30:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。