Fugu-MT 論文翻訳(概要): Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions

論文の概要: Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions

arxiv url: http://arxiv.org/abs/2106.02436v1
Date: Fri, 4 Jun 2021 12:26:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-07 14:57:38.914193
Title: Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions
Title（参考訳）: 非拘束遅延分布を有する確率的多腕バンディット
Authors: Tal Lancewicki, Shahar Segal, Tomer Koren, Yishay Mansour
Abstract要約: アルゴリズムが受信したフィードバックにランダムな遅延を伴うマルチアーマッド・バンドイット(MAB)問題について検討する。報酬非依存の遅延設定は、報酬非依存の遅延設定と、報酬非依存の遅延設定に依存する可能性がある。私たちの主な貢献は、それぞれの設定でほぼ最適に後悔するアルゴリズムです。
参考スコア（独自算出の注目度）: 54.25616645675032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study the stochastic Multi-Armed Bandit (MAB) problem with random delays in the feedback received by the algorithm. We consider two settings: the reward-dependent delay setting, where realized delays may depend on the stochastic rewards, and the reward-independent delay setting. Our main contribution is algorithms that achieve near-optimal regret in each of the settings, with an additional additive dependence on the quantiles of the delay distribution. Our results do not make any assumptions on the delay distributions: in particular, we do not assume they come from any parametric family of distributions and allow for unbounded support and expectation; we further allow for infinite delays where the algorithm might occasionally not observe any feedback.
Abstract（参考訳）: アルゴリズムが受信するフィードバックのランダム遅延を伴う確率的多腕バンディット問題(mab)について検討した。報奨依存遅延設定では,報奨非依存遅延設定と報奨非依存遅延設定の2つの設定を検討する。我々の主な貢献は、遅延分布の分位数に付加的に依存しながら、各設定でほぼ最適の後悔を達成するアルゴリズムです。我々の結果は遅延分布については何も仮定していない:特に、それらは任意のパラメトリック分布族から来ており、無制限のサポートと期待を可能にするとは考えていない。

関連論文リスト

Lipschitz Bandits with Stochastic Delayed Feedback [3.0594138391611967]
本稿では,遅延フィードバックの存在下でのリプシッツ・バンディットの新たな問題を紹介する。各設定でサブ線形後悔保証を実現するアルゴリズムを設計する。本稿では,様々な遅延シナリオ下でのアルゴリズムの効率性を示す実験結果を示す。
論文参考訳（メタデータ） (2025-09-30T22:07:17Z)
Merit-based Fair Combinatorial Semi-Bandit with Unrestricted Feedback Delays [25.757803459592104]
本研究では,有益性制約下での非制限フィードバック遅延を用いた半帯域問題について検討する。これはクラウドソーシングやオンライン広告などのアプリケーションによって動機付けられており、即時フィードバックはすぐには利用できない。我々は,その利点に基づいて,制限のないフィードバック遅延の下で腕を選択するための新しいバンディットアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-22T07:36:27Z)
Tree Search-Based Policy Optimization under Stochastic Execution Delay [46.849634120584646]
遅延実行 MDP は、状態拡張に頼ることなく、ランダムな遅延に対処する新しい形式である。観測された遅延値から、マルコフポリシーのクラスでポリシー探索を行うのに十分であることを示す。我々はマルコフポリシーのクラスを最適化するモデルベースのアルゴリズムであるDEZを考案した。
論文参考訳（メタデータ） (2024-04-08T12:19:04Z)
Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文参考訳（メタデータ） (2024-02-19T03:08:02Z)
A Best-of-both-worlds Algorithm for Bandits with Delayed Feedback with Robustness to Excessive Delays [24.998122268199797]
本稿では,フィードバックが可変に遅延するバンディットのためのベスト・オブ・ボス・ワールドス・アルゴリズムを提案する。我々のアルゴリズムは任意の過剰な遅延を許容し、$T$をオーダーすることができる。
論文参考訳（メタデータ） (2023-08-21T12:17:40Z)
Stochastic Submodular Bandits with Delayed Composite Anonymous Bandit Feedback [39.12903814606534]
本稿では,過度な(期待している)報酬と全帯域遅延フィードバックを伴うマルチアームバンドの問題について検討する。遅延したフィードバックは過去のアクションからの報酬のコンポーネントで構成されており、サブコンポーネント間で未知の分割がある。提案アルゴリズムは,合成匿名フィードバックの遅延により,他の全帯域アプローチより優れていることを示す。
論文参考訳（メタデータ） (2023-03-23T18:38:33Z)
A Reduction-based Framework for Sequential Decision Making with Delayed Feedback [53.79893086002961]
汎用マルチエージェントシーケンシャル意思決定における遅延フィードバックについて検討する。本稿では, 逐次的意思決定のためのマルチバッチアルゴリズムを, 即時フィードバックにより, サンプル効率のよいアルゴリズムに変換する, 新たなリダクションベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-02-03T01:16:09Z)
Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-01T15:56:59Z)
Thompson Sampling with Unrestricted Delays [18.059421254087976]
遅延フィードバックを用いたマルチアームバンディット問題におけるトンプソンサンプリングの特性について検討する。我々のバウンダリは、アドホックアルゴリズムによって導出される最良のバウンダリに質的に匹敵する。広範なシミュレーション実験では、トンプソンサンプリングがいくつかの代替案より優れていることが判明した。
論文参考訳（メタデータ） (2022-02-24T23:56:36Z)
Stochastic bandits with arm-dependent delays [102.63128271054741]
我々は、単純なUCBベースのアルゴリズムであるPatentBanditsを提案する。問題に依存しない境界も問題に依存しない境界も、性能の低い境界も提供します。
論文参考訳（メタデータ） (2020-06-18T12:13:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。