論文の概要: Mastering Multiple-Expert Routing: Realizable $H$-Consistency and Strong Guarantees for Learning to Defer
- arxiv url: http://arxiv.org/abs/2506.20650v1
- Date: Wed, 25 Jun 2025 17:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.890079
- Title: Mastering Multiple-Expert Routing: Realizable $H$-Consistency and Strong Guarantees for Learning to Defer
- Title(参考訳): マルチエキスパートルーティングをマスターする:$H$-Consistencyと強力な保証
- Authors: Anqi Mao, Mehryar Mohri, Yutao Zhong,
- Abstract要約: 本稿では,理論学習の保証が強い新しい代理損失関数と効率的なアルゴリズムを提案する。
実現可能な$H$一貫性、$H$一貫性境界、単段階および二段階の学習シナリオにおけるベイズ一貫性に関するオープンな疑問に対処する。
実効化可能な$H$整合性,$H$整合性境界,および2つの経験的シナリオに対するベイズ整合性,そして自然仮定の下では多重経験的シナリオを実現するための新たな代理的損失を導出する。
- 参考スコア(独自算出の注目度): 30.389055604165222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of learning to defer with multiple experts consists of optimally assigning input instances to experts, balancing the trade-off between their accuracy and computational cost. This is a critical challenge in natural language generation, but also in other fields such as image processing, and medical diagnostics. Recent studies have proposed surrogate loss functions to optimize deferral, but challenges remain in ensuring their consistency properties. This paper introduces novel surrogate loss functions and efficient algorithms with strong theoretical learning guarantees. We address open questions regarding realizable $H$-consistency, $H$-consistency bounds, and Bayes-consistency for both single-stage (jointly learning predictor and deferral function) and two-stage (learning only the deferral function with a fixed expert) learning scenarios. For single-stage deferral, we introduce a family of new realizable $H$-consistent surrogate losses and further prove $H$-consistency for a selected member. For two-stage deferral, we derive new surrogate losses that achieve realizable $H$-consistency, $H$-consistency bounds, and Bayes-consistency for the two-expert scenario and, under natural assumptions, multiple-expert scenario. Additionally, we provide enhanced theoretical guarantees under low-noise assumptions for both scenarios. Finally, we report the results of experiments using our proposed surrogate losses, comparing their performance against existing baselines.
- Abstract(参考訳): 複数の専門家による遅延学習の問題は、入力インスタンスを専門家に最適に割り当てることと、その正確さと計算コストのトレードオフをバランスさせることである。
これは自然言語生成において重要な課題であり、画像処理や医学診断など他の分野でも問題となる。
近年の研究では、遅延を最適化するための代理損失関数が提案されているが、その一貫性の確保には課題が残っている。
本稿では,理論学習の保証が強い新しい代理損失関数と効率的なアルゴリズムを提案する。
我々は、単段階(予測関数とdeferral関数の併用学習)と二段階(専門家が固定したdeferral関数のみ学習)の両方の学習シナリオに対して、実現可能な$H$一貫性、$H$一貫性境界、Bayes一貫性に関するオープンな疑問に対処する。
単段deferralでは、新しい実現可能な$H$一貫性のサロゲート損失の族を導入し、さらに選択されたメンバーに対して$H$一貫性を示す。
2段階のdeferralでは、実現可能な$H$-consistency、$H$-consistency bounds、Bayes-consistencyという2段階のシナリオと自然の仮定の下でのマルチエキスパートシナリオを実現する新しいサロゲート損失を導出する。
さらに,両シナリオの低雑音条件下での理論的保証も強化する。
最後に,提案したサロゲート損失を用いた実験結果について報告する。
関連論文リスト
- Sample Complexity and Representation Ability of Test-time Scaling Paradigms [91.34339030453425]
テスト時間スケーリングのパラダイムは、複雑なタスクにおいて、大きな言語モデル(LLM)の能力を向上した。
本稿では, 自己整合性, ベスト・オブ・n$, 自己補正など, 様々なテストタイム戦略のサンプル効率について検討する。
単一のTransformerアーキテクチャは、ユーザクエリに関連する特定のタスクを事前に知ることなく、複数のタスクを確実に解決することができる。
論文 参考訳(メタデータ) (2025-06-05T17:48:19Z) - One-Stage Top-$k$ Learning-to-Defer: Score-Based Surrogates with Theoretical Guarantees [3.6787328174619254]
最初の1段階のTop-k$ Learning-to-Deferフレームワークを紹介します。
我々は、最もコスト効率の良いエンティティラベルや専門家1人当たりのインプットを$k$で選択するスコアベースの共有モデルを学ぶ。
CIFAR-10とSVHNの実験により、我々の1段階のTop-$k$法がTop-1deferralを厳密に上回っていることを確認した。
論文 参考訳(メタデータ) (2025-05-15T10:41:16Z) - Realizable $H$-Consistent and Bayes-Consistent Loss Functions for Learning to Defer [30.389055604165222]
非増加関数の$Psi$によってパラメータ化され、穏やかな条件下で実現可能な$H$一貫性を確立する。
分類誤差に基づくコスト関数の場合、これらの損失は仮説集合が対称かつ完全であるときに$H$一貫性境界を持つことを示す。
論文 参考訳(メタデータ) (2024-07-18T17:35:03Z) - Regression with Multi-Expert Deferral [30.389055604165222]
複数の専門家で予測を遅延させる学習は、学習者が複数の専門家に予測を遅延させることを選択できるフレームワークである。
本稿では、複数の専門家に予測を延期することを含む、遅延を伴う新しい回帰の枠組みを提案する。
両シナリオに新たなサロゲート損失関数を導入し,これらが$H$一貫性境界でサポートされていることを証明した。
論文 参考訳(メタデータ) (2024-03-28T15:26:38Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Principled Approaches for Learning to Defer with Multiple Experts [30.389055604165222]
マルチエキスパート設定に特化して,新たなサロゲート損失のファミリーを導入する。
これらのサロゲート損失は、強い$H$一貫性境界の恩恵を受けることを証明している。
論文 参考訳(メタデータ) (2023-10-23T10:19:09Z) - Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。
我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文 参考訳(メタデータ) (2023-06-05T06:55:39Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。