論文の概要: Robust Linear Dueling Bandits with Post-serving Context under Unknown Delays and Adversarial Corruptions
- arxiv url: http://arxiv.org/abs/2605.01752v1
- Date: Sun, 03 May 2026 07:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.923347
- Title: Robust Linear Dueling Bandits with Post-serving Context under Unknown Delays and Adversarial Corruptions
- Title(参考訳): 未知の遅延と逆転破壊下における後続コンテキストを考慮したロバスト線形ダリングバンド
- Authors: Youngmin Oh,
- Abstract要約: 不安定な環境下での線形デュエルバンディットについて検討した。
本稿では,事前予約情報から事前予約後のコンテキストを予測する学習近似器を統合する用語を提案する。
本分析では, 従来の作業に典型的な乗算劣化を回避し, 汚損と遅延の間に付加的なコスト構造を明らかにした。
- 参考スコア(独自算出の注目度): 13.10320454140084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study linear dueling bandits in volatile environments characterized by the simultaneous presence of post-serving contexts, delayed feedback, and adversarial corruption. Feedback is subject to unknown stochastic or adversarial delays and a cumulative corruption budget $\mathcal{C}$. To address these challenges, we propose \term, which integrates a learned approximator that predicts post-serving contexts from pre-serving information. It further employs an adaptive weighting strategy that clips feature vectors to mitigate the impact of corrupted and delayed observations simultaneously. Under standard regularity conditions and a parametric post-serving mapping, we rigorously establish that our algorithm is delay-regime-agnostic, achieving a regret upper bound of $\widetilde{\mathcal{O}}(d(\sqrt{T} + \mathcal{C} + \mathcal{D}))$, where $d$ is the total feature dimension and $\mathcal{D}$ encapsulates the delay complexity. Crucially, our analysis reveals an additive cost structure between corruption and delay, avoiding the multiplicative degradation typical of prior works. We further establish lower bounds that nearly match our upper bounds up to a $\sqrt{d}$ factor for adversarial delays in the absence of post-serving contexts.
- Abstract(参考訳): 不安定な環境下での線形デュエルバンディットについて検討した。
フィードバックには、未知の確率的あるいは敵対的な遅延と累積的な汚職予算$\mathcal{C}$が課せられる。
これらの課題に対処するために,学習した近似器を統合した \term を提案する。
さらに適応的な重み付け戦略を採用し、特徴ベクトルをクリップすることで、劣化した観測と遅延した観測の影響を同時に緩和する。
標準的な正規性条件とパラメトリックポストサーブリングマッピングの下で、我々のアルゴリズムは遅延レジームに依存しないことを厳格に証明し、後悔の上限である$\widetilde{\mathcal{O}}(d(\sqrt{T} + \mathcal{C} + \mathcal{D})$を達成し、$d$は全特徴次元であり、$\mathcal{D}$は遅延複雑性をカプセル化する。
本分析では, 劣化と遅延の間に付加的なコスト構造を呈し, 従来の作業に典型的な乗算的劣化を回避した。
さらに、上界にほぼ一致する下界を$\sqrt{d}$因子に設定し、後続の文脈が存在しない場合の逆遅延を計算します。
関連論文リスト
- Bandit and Delayed Feedback in Online Structured Prediction [25.637979150499874]
要求の少ないフィードバック、帯域幅、遅延フィードバックを扱うアルゴリズムを提案する。
これらのアルゴリズムの性能と既存アルゴリズムの性能を数値的に比較する。
論文 参考訳(メタデータ) (2025-02-26T00:00:15Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Delayed Feedback in Generalised Linear Bandits Revisited [5.349852254138085]
一般化線形包帯における遅延報酬の現象を理論的に研究する。
遅延フィードバックに対する楽観的なアルゴリズムの自然な適応は、遅延に対するペナルティが地平線から独立であるような後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T23:35:01Z) - Adapting to Delays and Data in Adversarial Multi-Armed Bandits [7.310043452300736]
決定時に利用可能な情報のみを用いてステップサイズを調整するExp3アルゴリズムの変種を分析する。
我々は、観測された(最悪の場合ではなく)遅延や損失のシーケンスに適応する後悔の保証を得る。
論文 参考訳(メタデータ) (2020-10-12T20:53:52Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。