論文の概要: Online Learning-to-Defer with Varying Experts
- arxiv url: http://arxiv.org/abs/2605.12340v2
- Date: Wed, 20 May 2026 08:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.093695
- Title: Online Learning-to-Defer with Varying Experts
- Title(参考訳): Varying Expertsによるオンライン学習 to Defer
- Authors: Dang Hoang Duy, Yannis Montreuil, Maxime Meyer, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi,
- Abstract要約: バンディットフィードバックと動的に変化する専門家のプールを備えた,マルチクラス分類のための最初のオンラインL2Dアルゴリズムを導入する。
本手法は, 一般には$O((n+n_e)T2/3)$, $O((n+n_e)sqrtT)$を低雑音条件下で後悔保証する。
合成および実世界のデータセットの実験により、我々のアプローチは、標準的なLearning-to-Deferを、専門家の可用性と信頼性の異なる設定に効果的に拡張することを示した。
- 参考スコア(独自算出の注目度): 6.097236291317658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-to-Defer (L2D) methods route each query either to a predictive model or to external experts. While existing work studies this problem in batch settings, real-world deployments require handling streaming data, changing expert availability, and shifting expert distribution. We introduce the first online L2D algorithm for multiclass classification with bandit feedback and a dynamically varying pool of experts. Our method achieves regret guarantees of $O((n+n_e)T^{2/3})$ in general and $O((n+n_e)\sqrt{T})$ under a low-noise condition, where $T$ is the time horizon, $n$ is the number of labels, and $n_e$ is the number of distinct experts observed across rounds. The analysis builds on novel $\mathcal{H}$-consistency bounds for the online framework, combined with first-order methods for online convex optimization. Experiments on synthetic and real-world datasets demonstrate that our approach effectively extends standard Learning-to-Defer to settings with varying expert availability and reliability.
- Abstract(参考訳): Learning-to-Defer(L2D)メソッドは、各クエリを予測モデルまたは外部の専門家にルーティングする。
既存の作業ではバッチ設定でこの問題を研究しているが、実際のデプロイメントでは、ストリーミングデータの処理、専門家の可用性の変更、専門家の配布のシフトが必要になる。
バンディットフィードバックと動的に変化する専門家のプールを備えた,マルチクラス分類のための最初のオンラインL2Dアルゴリズムを導入する。
我々の手法は、一般に$O((n+n_e)T^{2/3})$と$O((n+n_e)\sqrt{T})$を低雑音条件で保証する。
この分析は、オンラインフレームワークのための新しい$\mathcal{H}$-consistency boundsと、オンライン凸最適化のための一階法の組み合わせに基づいている。
合成および実世界のデータセットの実験により、我々のアプローチは、標準的なLearning-to-Deferを、専門家の可用性と信頼性の異なる設定に効果的に拡張することを示した。
関連論文リスト
- UCB-type Algorithm for Budget-Constrained Expert Learning [71.67657715154034]
algnameM-LCBはUCBスタイルのメタアルゴリズムであり、幻想的後悔の保証を提供する
我々は、AlgnameM-LCBが、限られたリソースの下で、ステートフルで自己学習の専門家をコーディネートする、より現実的なシナリオまで、古典的な帯域幅パラダイムをどのように拡張しているかを示す。
論文 参考訳(メタデータ) (2025-10-26T12:36:17Z) - Why Ask One When You Can Ask $k$? Learning-to-Defer to the Top-$k$ Experts [6.792743621449621]
我々は、Top-k$ Learning-to-Deferの最初のフレームワークを紹介します。
クエリを$k$のコスト効率の高いエンティティに割り当てる。
また、クエリ毎に最適な専門家数を学ぶ適応型変種であるTop-$k(x)$ Learning-to-Deferを提案する。
論文 参考訳(メタデータ) (2025-04-17T14:50:40Z) - Efficient Methods for Non-stationary Online Learning [63.268670895111654]
動的後悔と適応的後悔を最適化する効率的な方法を提案する。
提案アルゴリズムでは,各ラウンドで1つの勾配クエリと1つの関数評価しか必要としない。
また、さらに強力な測度、すなわち「内部的動的後悔」を研究し、ラウンド当たりの射影数を$O(log2 T)$から$$$$に減らした。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Filtering DDoS Attacks from Unlabeled Network Traffic Data Using Online
Deep Learning [7.683035842994701]
DDoS攻撃は単純で効果的であり、20年以上経っても大きな脅威となる。
絶え間なく変化するプロファイル、ラベル付きデータの欠如、オンライン設定における制約のために、ディープラーニングソリューションの採用には課題があります。
本稿では,歴史的な$mathcal N$と,攻撃時に得られた$mathcal M$トラフィックを混合した2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-12T12:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。