論文の概要: Stochastic Bandits for Crowdsourcing and Multi-Platform Autobidding
- arxiv url: http://arxiv.org/abs/2508.05844v1
- Date: Thu, 07 Aug 2025 20:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.00756
- Title: Stochastic Bandits for Crowdsourcing and Multi-Platform Autobidding
- Title(参考訳): クラウドソーシングとマルチプラットフォーム自動車のための確率帯域
- Authors: François Bachoc, Nicolò Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni,
- Abstract要約: クラウドソーシング(クラウドソーシング)では,一定額の資金がK$の労働者に分配され,固定予算がK$の同時オークションで競売に使用される。
アームは、$K$-dimensional probability simplexに属し、各タスク/オークションに割り当てられた予算の分数を表す。
各ラウンドの報酬は$K$の報酬の合計で、それぞれの報酬は、そのタスク/オークションに割り当てられた予算のごく一部で異なる確率でアンロックされる。
- 参考スコア(独自算出の注目度): 20.243000364933472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by applications in crowdsourcing, where a fixed sum of money is split among $K$ workers, and autobidding, where a fixed budget is used to bid in $K$ simultaneous auctions, we define a stochastic bandit model where arms belong to the $K$-dimensional probability simplex and represent the fraction of budget allocated to each task/auction. The reward in each round is the sum of $K$ stochastic rewards, where each of these rewards is unlocked with a probability that varies with the fraction of the budget allocated to that task/auction. We design an algorithm whose expected regret after $T$ steps is of order $K\sqrt{T}$ (up to log factors) and prove a matching lower bound. Improved bounds of order $K (\log T)^2$ are shown when the function mapping budget to probability of unlocking the reward (i.e., terminating the task or winning the auction) satisfies additional diminishing-returns conditions.
- Abstract(参考訳): クラウドソーシング(クラウドソーシング)において,一定金額の資金がK$労働者とオートビジング(オートビジン)に分配され,固定予算がK$同時オークションで競売に使用される場合,各タスク/オークションに割り当てられた予算の分数を表す,K$次元の確率的ビジットモデルを定義する。
各ラウンドの報酬はK$確率的報酬の合計で、それぞれの報酬は、そのタスク/オークションに割り当てられた予算のごく一部で変化する確率でアンロックされる。
我々は、$T$のステップ後に期待される後悔が$K\sqrt{T}$(ログファクタまで)であるアルゴリズムを設計し、一致した下界を証明する。
次数$K(\log T)^2$の改善された境界は、関数が報酬をアンロックする確率(すなわち、タスクを終了またはオークションに勝つ確率)にマッピングする予算が追加の減退条件を満たすときに示される。
関連論文リスト
- From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - A New Benchmark for Online Learning with Budget-Balancing Constraints [14.818946657685267]
本稿では,オートバイディングなどの実世界の応用と,その基礎となる数学的構造を比較対象とする新しいベンチマークを提案する。
サブリニアな消費パターンが$o(T2)$以内である戦略に対して,サブリニアな後悔は達成可能であることを示す。
論文 参考訳(メタデータ) (2025-03-19T00:14:20Z) - Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Combinatorial Bandits for Maximum Value Reward Function under Max
Value-Index Feedback [9.771002043127728]
本稿では,最大値報酬関数に対する最大値と指数フィードバックに基づくマルチアームバンディット問題を考察する。
有限なサポートを持つ任意の分布にしたがって、アーム結果を持つ問題インスタンスに対して、アルゴリズムを提案し、後悔の束縛を与える。
我々のアルゴリズムは、$O(((k/Delta)log(T))$ distribution-dependent と $tildeO(sqrtT)$ distribution-independent regret を達成する。
論文 参考訳(メタデータ) (2023-05-25T14:02:12Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Combinatorial Bandits without Total Order for Arms [52.93972547896022]
セット依存報酬分布を捕捉し、武器の合計順序を仮定しない報酬モデルを提案する。
我々は、新しい後悔分析を開発し、$Oleft(frack2 n log Tepsilonright)$ gap-dependent regret boundと$Oleft(k2sqrtn T log Tright)$ gap-dependent regret boundを示す。
論文 参考訳(メタデータ) (2021-03-03T23:08:59Z) - Budget-Constrained Bandits over General Cost and Reward Distributions [32.63624728528415]
我々は,各アームがランダムなコストを発生させ,その見返りにランダムな報酬を与える,予算制約付きバンディット問題を考える。
ある$gamma > 0$ に対して位数 $(2+gamma)$ のモーメントが存在するならば、$O(log B)$ regret は予算 $B>0$ に対して達成可能である。
論文 参考訳(メタデータ) (2020-02-29T23:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。