論文の概要: Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to the Top-$k$ Experts
- arxiv url: http://arxiv.org/abs/2504.12988v3
- Date: Thu, 15 May 2025 10:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 14:06:36.44001
- Title: Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to the Top-$k$ Experts
- Title(参考訳): なぜ$k$を尋ねられるのか? 2段階の学習- to-Defer to the Top-k$ Experts
- Authors: Yannis Montreuil, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi,
- Abstract要約: 我々はTop-k$ Learning-to-Deferの最初のフレームワークを紹介します。
提案するTop-$k(x)$ Learning-to-Deferは,入力複雑性,エキスパート品質,コンサルテーションコストに基づいて,クエリ毎の専門家数を最適に学習する適応型拡張である。
- 参考スコア(独自算出の注目度): 3.6787328174619254
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although existing Learning-to-Defer (L2D) frameworks support multiple experts, they allocate each query to a single expert, limiting their ability to leverage collective expertise in complex decision-making scenarios. To address this, we introduce the first framework for Top-$k$ Learning-to-Defer, enabling systems to defer each query to the $k$ most cost-effective experts. Our formulation strictly generalizes classical two-stage L2D by supporting multi-expert deferral-a capability absent in prior work. We further propose Top-$k(x)$ Learning-to-Defer, an adaptive extension that learns the optimal number of experts per query based on input complexity, expert quality, and consultation cost. We introduce a novel surrogate loss that is Bayes-consistent, $(\mathcal{R}, \mathcal{G})$-consistent, and independent of the cardinality parameter $k$, enabling efficient reuse across different values of $k$. We show that classical model cascades arise as a special case of our method, situating our framework as a strict generalization of both selective deferral and cascaded inference. Experiments on classification and regression demonstrate that Top-$k$ and Top-$k(x)$ yield improved accuracy--cost trade-offs, establishing a new direction for multi-expert deferral in Learning-to-Defer.
- Abstract(参考訳): 既存のL2D(Learning-to-Defer)フレームワークは複数の専門家をサポートするが、それぞれのクエリを1人のエキスパートに割り当て、複雑な意思決定シナリオにおいて総合的な専門知識を活用する能力を制限する。
これを解決するために、私たちはTop-k$ Learning-to-Deferの最初のフレームワークを紹介します。
我々の定式化は従来の2段階のL2Dを厳密に一般化し、先行作業に欠くマルチ専門家のdeferral-a機能をサポートする。
さらに、入力複雑性、エキスパート品質、コンサルティングコストに基づいて、クエリ毎に最適な専門家数を学ぶ適応的拡張であるTop-k(x)$ Learning-to-Deferを提案する。
我々はベイズ一貫性を持つ新しいサロゲート損失($(\mathcal{R}, \mathcal{G})$-consistent)を導入し、濃度パラメータ$k$とは独立に、$k$の異なる値の効率的な再利用を可能にする。
古典的モデルカスケードは我々の手法の特別な場合として現れ、選択的推論とカスケード推論の両方の厳密な一般化として我々の枠組みを定めている。
分類と回帰に関する実験では、Top-$k$とTop-$k(x)$が精度とコストのトレードオフを改善し、Learning-to-Deferralにおけるマルチエキスパート推論の新しい方向性を確立した。
関連論文リスト
- Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - Pareto Optimal Algorithmic Recourse in Multi-cost Function [0.44938884406455726]
アルゴリズム的リコースは、個々の特徴を変更するために最小限のコストのアクションを識別することを目的としており、それによって望ましい結果が得られる。
現在のリコース機構のほとんどは、コスト関数が微分可能であると仮定する勾配に基づく手法を使用しており、現実のシナリオでは適用できないことが多い。
本研究では,非微分可能かつ離散的多コスト関数を扱うアルゴリズム的リコースフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T03:16:08Z) - Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。
本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
分類タスクと回帰タスクを共同で扱うマルチタスク学習のための新しい2段階学習フレームワークを提案する。
我々は,分類と回帰が密結合した物体検出,電子健康記録解析の2つの課題に対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2024-10-21T07:44:57Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。