論文の概要: Best Arm Identification in Generalized Linear Bandits via Hybrid Feedback
- arxiv url: http://arxiv.org/abs/2605.05745v1
- Date: Thu, 07 May 2026 06:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.569144
- Title: Best Arm Identification in Generalized Linear Bandits via Hybrid Feedback
- Title(参考訳): ハイブリッドフィードバックによる一般化線形帯域のベストアーム同定
- Authors: Qirun Zeng, Xuchuang Wang, Jiayi Shen, Xutong Liu, Fang Kong, Jinhang Zuo,
- Abstract要約: 一般化線形包帯における固定信頼度最適腕同定をハイブリッドフィードバックモデルにより検討した。
不均一な一般化線形観測を統一する確率比に基づく信頼シーケンスを導入する。
アームとペアの共同動作空間上での最小最適設計を追跡することで,クエリを適応的に割り当てるハイブリッドトラック・アンド・ストップアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 23.37199172197756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study fixed-confidence best arm identification in generalized linear bandits under a hybrid feedback model: at each round, the learner may query either (i) absolute reward feedback from a single arm or (ii) relative (dueling) feedback from an arm pair, both governed by generalized linear models. We introduce a likelihood-ratio--based confidence sequence that unifies heterogeneous generalized linear observations and yields an explicit ellipsoidal confidence set under a self-concordance assumption. Building on this confidence set, we propose a hybrid Track-and-Stop algorithm that adaptively allocates queries by tracking a minimax-optimal design over a joint action space of arms and pairs. We establish $δ$-correctness and provide high-probability upper bounds on the stopping time. We further extend the framework to a cost-aware setting that accounts for heterogeneous acquisition costs across feedback modalities. Empirical experiments demonstrate that the proposed algorithms significantly improve sample efficiency over baseline methods.
- Abstract(参考訳): ハイブリッドフィードバックモデルに基づく一般化線形包帯における固定信頼度最良腕識別について検討する。
一 一人の腕からの絶対報酬のフィードバック
(ii) 一般線形モデルによって支配されるアームペアからの相対的(減衰)フィードバック。
我々は、不均一な一般化線形観測を統一し、自己一致仮定の下で明示的な楕円型信頼を与える確率比に基づく信頼シーケンスを導入する。
この信頼性セットに基づいて、アームとペアの共同動作空間上での最小最適設計を追跡することで、クエリを適応的に割り当てるハイブリッドトラック・アンド・ストップアルゴリズムを提案する。
我々は$δ$-correctnessを確立し、停止時間に高い確率上の上限を与える。
さらに我々は、このフレームワークを、フィードバックモダリティ間の不均一な取得コストを考慮に入れたコスト認識設定に拡張する。
実験により,提案アルゴリズムはベースライン法よりもサンプル効率を著しく向上することを示した。
関連論文リスト
- Nearly Optimal Best Arm Identification for Semiparametric Bandits [2.538209532048867]
半パラメトリックバンディットにおける固定信頼ベストアーム識別(BAI)について検討した。
トランスダクティブ・セッティングのために、シフトした特徴に対する対応する線形帯域複雑性を特徴とする、達成可能なインスタンス依存下界を確立する。
我々の分析は、最大ログ係数と追加の$d2$項を含む、ほぼ最適に高確率のサンプル複雑度上限を得る。
論文 参考訳(メタデータ) (2026-04-05T05:13:02Z) - Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - Experimental Design for Semiparametric Bandits [11.156009461711639]
両腕の報酬が線形成分と未知の、潜在的に敵対的なシフトを組み合わせた有限腕半パラメトリックバンドについて検討する。
我々は,シャープな後悔境界,PAC境界,ベストアーム識別保証を同時に提供する最初の実験設計手法を提案する。
論文 参考訳(メタデータ) (2025-06-16T11:53:00Z) - Semi-Parametric Batched Global Multi-Armed Bandits with Covariates [0.48342038441006807]
マルチアームバンディット(MAB)フレームワークは、シーケンシャルな意思決定に広く使われているアプローチである。
本稿では,コパラメトリックと腕間の共有パラメータを持つバッチバンドの半パラメトリックフレームワークを提案する。
Batched Single-Index Dynamic binning and Successive arm elimination (BIDS) というアルゴリズムでは、バッチ化された逐次アームの除去戦略を採用している。
論文 参考訳(メタデータ) (2025-03-01T17:23:55Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Posterior Differential Regularization with f-divergence for Improving
Model Robustness [95.05725916287376]
クリーン入力とノイズ入力のモデル後部差を規則化する手法に着目する。
後微分正則化を$f$-divergencesの族に一般化する。
実験の結果, 後方微分を$f$-divergenceで正規化することで, モデルロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。