論文の概要: Linear and Neural Dueling Bandits with Delayed Feedback
- arxiv url: http://arxiv.org/abs/2605.26554v1
- Date: Tue, 26 May 2026 05:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.678278
- Title: Linear and Neural Dueling Bandits with Delayed Feedback
- Title(参考訳): 遅延フィードバックを伴う線形及びニューラルデュエル帯域
- Authors: Xiangyi Wang, Pingchen Lu, Jie Mao, Mingze Kong, Zhi Hong, Zhiyong Wang, Zhongxiang Dai,
- Abstract要約: コンテキストデュエルの帯域幅は、嗜好に基づく意思決定の基盤となる。
標準アルゴリズムは、即時フィードバックの理想的な仮定に依存している。
リニア(LDB-DF)とニューラル(NDB-DF)の2つの新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 21.304131079137093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual dueling bandits form a cornerstone of preference-based decision-making, with critical applications in recommender systems and large language model alignment. However, standard algorithms rely on the idealized assumption of immediate feedback, a condition frequently violated in real-world scenarios such as prompt optimization. This setting introduces a unique theoretical challenge: unlike linear bandits, dueling bandit estimators lack closed-form solutions, rendering naive adaptations of standard weighting techniques biased. To address this, we formalize the problem of Contextual Dueling Bandits with Stochastic Delayed Feedback and propose two novel algorithms: Linear (LDB-DF) and Neural (NDB-DF) Dueling Bandits with Delayed Feedback. Central to our approach is a novel estimator that integrates an Inverse Probability Weighting (IPW) mechanism directly into the loss function, ensuring unbiased correction for delayed or missing feedback. We provide comprehensive theoretical analysis, establishing an O(d*sqrt(T)) regret bound for the linear setting and sub-linear guarantees for the neural setting. Extensive experiments on both simulated and real-world datasets demonstrate the effectiveness of our propose.
- Abstract(参考訳): コンテキストデュエルの帯域幅は、リコメンデータシステムや大規模言語モデルのアライメントにおいて重要な応用として、好みに基づく意思決定の基盤を形成する。
しかし、標準的なアルゴリズムは、即時フィードバックの理想的な仮定に依存しており、即時最適化のような現実のシナリオでは、条件はしばしば違反する。
この設定は、線形バンドイットとは異なり、バンドイット推定器は閉形式解を欠いており、標準重み付け手法の単純適応は偏りがある。
これを解決するために、確率的遅延フィードバックを用いたコンテキストデュアリングバンドの問題を定式化し、線形(LDB-DF)とニューラル(NDB-DF)の2つの新しいアルゴリズムを提案する。
我々のアプローチの中心は、損失関数に直接逆確率重み付け(IPW)機構を統合する新しい推定器であり、遅延または欠落したフィードバックに対するバイアスのない補正を確実にする。
我々は、線形設定に対するO(d*sqrt(T))の後悔と、神経設定に対するサブ線形保証を確立する、包括的な理論的解析を提供する。
シミュレーションと実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [70.38810219913593]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - Active Human Feedback Collection via Neural Contextual Dueling Bandits [84.7608942821423]
本稿では,人間の嗜好フィードバックを抽出するアルゴリズムであるNeural-ADBを提案する。
優先フィードバックがBradley-Terry-Luceモデルに従うと、Neural-ADBが学習したポリシーの最悪の準最適差は、選好データセットが増加するにつれて、サブ線形速度で減少することを示す。
論文 参考訳(メタデータ) (2025-04-16T12:16:10Z) - Neural Dueling Bandits: Preference-Based Optimization with Human Feedback [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
また、理論的結果を文脈的包括的問題に拡張し、二元的フィードバックは、それ自体は非自明な貢献である。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Online Statistical Inference in Decision-Making with Matrix Context [5.2071564436846245]
本稿では,適応的に収集したデータを用いて統計的推測を行うオンライン手法を提案する。
標準の低ランク推定器は偏りがあり、逐次的には得られない。
シーケンシャルな意思決定アルゴリズムにおける既存のアプローチは、低ランク性を考慮しておらず、バイアスもある。
論文 参考訳(メタデータ) (2022-12-21T22:03:06Z) - Hypothesis Transfer in Bandits by Weighted Models [8.759884299087835]
我々は,仮説伝達学習の設定において,文脈的マルチアームバンディットの問題を考える。
転送が望まれる場合に,古典的リニア UCB に対する後悔の軽減を示す再重み付け方式を示す。
さらに,この手法を任意の量のソースモデルに拡張し,各ステップでどのモデルが好まれるかをアルゴリズムが決定する。
論文 参考訳(メタデータ) (2022-11-14T14:13:02Z) - Optimal Regularized Online Allocation by Adaptive Re-Solving [16.873430173722994]
本稿では、正規化されたオンラインリソース割り当て問題を解決するために、デュアルベースのアルゴリズムフレームワークを提案する。
資源制約を適応的に更新する戦略の下で、提案手法は経験的二重問題に対する近似解をある程度の精度で要求するのみである。
驚いたことに、二重目的関数の微妙な解析により、後悔境界における悪名高いログ係数を排除できる。
論文 参考訳(メタデータ) (2022-09-01T12:23:26Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。