Fugu-MT 論文翻訳(概要): Stochastic bandits with arm-dependent delays

論文の概要: Stochastic bandits with arm-dependent delays

arxiv url: http://arxiv.org/abs/2006.10459v1
Date: Thu, 18 Jun 2020 12:13:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-19 12:37:48.208619
Title: Stochastic bandits with arm-dependent delays
Title（参考訳）: 腕依存遅延を伴う確率的包帯
Authors: Anne Gael Manegueu, Claire Vernade, Alexandra Carpentier, Michal Valko
Abstract要約: 我々は、単純なUCBベースのアルゴリズムであるPatentBanditsを提案する。問題に依存しない境界も問題に依存しない境界も、性能の低い境界も提供します。
参考スコア（独自算出の注目度）: 102.63128271054741
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Significant work has been recently dedicated to the stochastic delayed bandit setting because of its relevance in applications. The applicability of existing algorithms is however restricted by the fact that strong assumptions are often made on the delay distributions, such as full observability, restrictive shape constraints, or uniformity over arms. In this work, we weaken them significantly and only assume that there is a bound on the tail of the delay. In particular, we cover the important case where the delay distributions vary across arms, and the case where the delays are heavy-tailed. Addressing these difficulties, we propose a simple but efficient UCB-based algorithm called the PatientBandits. We provide both problems-dependent and problems-independent bounds on the regret as well as performance lower bounds.
Abstract（参考訳）: 近年、応用上の関連性から、確率的遅延バンディット設定に重要な研究がなされている。しかし、既存のアルゴリズムの適用性は、完全な可観測性、制限された形状の制約、腕に対する均一性といった遅延分布に強い仮定がしばしば行われるという事実によって制限される。この作業では、それらを著しく弱め、遅延の尾にバウンドがあることだけを仮定します。特に,遅延分布が腕によって異なる重要な場合と,遅延が重くなる場合について述べる。これらの課題に対処し,患者帯域と呼ばれる単純かつ効率的なucbベースのアルゴリズムを提案する。後悔に関する問題依存と問題に依存しない境界と、パフォーマンスの低さの両方を提供する。

関連論文リスト

Lipschitz Bandits with Stochastic Delayed Feedback [3.0594138391611967]
本稿では,遅延フィードバックの存在下でのリプシッツ・バンディットの新たな問題を紹介する。各設定でサブ線形後悔保証を実現するアルゴリズムを設計する。本稿では,様々な遅延シナリオ下でのアルゴリズムの効率性を示す実験結果を示す。
論文参考訳（メタデータ） (2025-09-30T22:07:17Z)
Biased Dueling Bandits with Stochastic Delayed Feedback [6.167074802065416]
遅延を伴う状況に対処するアルゴリズムを2つ提案する。完全遅延分布情報を必要とする第1のアルゴリズムは,遅延のない場合の遅延帯域問題に対する最適後悔境界を達成できる。第2のアルゴリズムは、分布が不明な状況に最適化されるが、遅延の期待値のみが利用可能である。
論文参考訳（メタデータ） (2024-08-26T19:49:12Z)
Merit-based Fair Combinatorial Semi-Bandit with Unrestricted Feedback Delays [25.757803459592104]
本研究では,有益性制約下での非制限フィードバック遅延を用いた半帯域問題について検討する。これはクラウドソーシングやオンライン広告などのアプリケーションによって動機付けられており、即時フィードバックはすぐには利用できない。我々は,その利点に基づいて,制限のないフィードバック遅延の下で腕を選択するための新しいバンディットアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-22T07:36:27Z)
Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文参考訳（メタデータ） (2024-02-19T03:08:02Z)
Non-stationary Delayed Combinatorial Semi-Bandit with Causally Related Rewards [7.0997346625024]
我々は、因果関係の報酬で非定常かつ遅延半帯域問題を定式化する。遅延したフィードバックから構造的依存関係を学習し、それを利用して意思決定を最適化する政策を開発する。イタリアにおけるCovid-19の拡散に最も寄与する地域を検出するために, 合成および実世界のデータセットを用いて数値解析により評価を行った。
論文参考訳（メタデータ） (2023-07-18T09:22:33Z)
Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文参考訳（メタデータ） (2022-11-14T21:54:31Z)
Nonstochastic Bandits and Experts with Arm-Dependent Delays [17.272515865592542]
遅延が時間と腕に依存するような遅延環境で,非確率的な盗賊や専門家について検討する。私たちの分析では、ドリフトに縛られた小説にヒンジを付け、1ラウンドのルックアヘッドを与えられた場合、アルゴリズムがどれだけの精度で実行できるかを測定しました。
論文参考訳（メタデータ） (2021-11-02T13:36:11Z)
Dare not to Ask: Problem-Dependent Guarantees for Budgeted Bandits [66.02233330016435]
後悔と質問されたフィードバックの両方について、問題に依存した保証を提供します。本稿では,問題依存的後悔と累積的フィードバック境界を導出するBuFALUというアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-12T03:24:57Z)
Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions [54.25616645675032]
アルゴリズムが受信したフィードバックにランダムな遅延を伴うマルチアーマッド・バンドイット(MAB)問題について検討する。報酬非依存の遅延設定は、報酬非依存の遅延設定と、報酬非依存の遅延設定に依存する可能性がある。私たちの主な貢献は、それぞれの設定でほぼ最適に後悔するアルゴリズムです。
論文参考訳（メタデータ） (2021-06-04T12:26:06Z)
On Lower Bounds for Standard and Robust Gaussian Process Bandit Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文参考訳（メタデータ） (2020-08-20T03:48:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。