論文の概要: Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to a Set of Experts
- arxiv url: http://arxiv.org/abs/2504.12988v1
- Date: Thu, 17 Apr 2025 14:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:46.316983
- Title: Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to a Set of Experts
- Title(参考訳): なぜ$k$を尋ねられるのか? 専門家のセットに2段階の学習- to-Defer
- Authors: Yannis Montreuil, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi,
- Abstract要約: L2D(Learning-to-Defer)は、不確実な予測をより有能なエージェントに選択的に延期することで、意思決定システムによる信頼性の向上を可能にする。
本稿では,従来の2段階L2Dフレームワークを一般化したTop-k$ Learning-to-Deferを提案する。
柔軟性とコスト効率をさらに向上するため,各クエリに対して最適なエージェント数を求める適応型拡張であるTop-$k(x)$ Learning-to-Deferを導入する。
- 参考スコア(独自算出の注目度): 3.6787328174619254
- License:
- Abstract: Learning-to-Defer (L2D) enables decision-making systems to improve reliability by selectively deferring uncertain predictions to more competent agents. However, most existing approaches focus exclusively on single-agent deferral, which is often inadequate in high-stakes scenarios that require collective expertise. We propose Top-$k$ Learning-to-Defer, a generalization of the classical two-stage L2D framework that allocates each query to the $k$ most confident agents instead of a single one. To further enhance flexibility and cost-efficiency, we introduce Top-$k(x)$ Learning-to-Defer, an adaptive extension that learns the optimal number of agents to consult for each query, based on input complexity, agent competency distributions, and consultation costs. For both settings, we derive a novel surrogate loss and prove that it is Bayes-consistent and $(\mathcal{R}, \mathcal{G})$-consistent, ensuring convergence to the Bayes-optimal allocation. Notably, we show that the well-established model cascades paradigm arises as a restricted instance of our Top-$k$ and Top-$k(x)$ formulations. Extensive experiments across diverse benchmarks demonstrate the effectiveness of our framework on both classification and regression tasks.
- Abstract(参考訳): L2D(Learning-to-Defer)は、不確実な予測をより有能なエージェントに選択的に延期することで、意思決定システムによる信頼性の向上を可能にする。
しかし、既存のほとんどのアプローチは、集合的な専門知識を必要とする高度なシナリオでは不十分な単一エージェントのdeferralにのみ焦点を当てている。
本稿では,従来の2段階L2Dフレームワークを一般化したTop-k$ Learning-to-Deferを提案する。
柔軟性とコスト効率をさらに高めるため、入力複雑性、エージェント能力分布、コンサルティングコストに基づいて、クエリ毎に最適なエージェント数を学習する適応的拡張であるTop-$k(x)$ Learning-to-Deferを導入する。
どちらの設定に対しても、新しい代理損失を導出し、ベイズ-最適割り当てへの収束を保証するために、それがベイズ-整合かつ$(\mathcal{R}, \mathcal{G})$-整合であることを証明する。
特に、確立されたモデルカスケードパラダイムが、Top-$k$とTop-$k(x)$の制限インスタンスとして現れることを示す。
様々なベンチマークにわたる大規模な実験は、分類タスクと回帰タスクの両方において、我々のフレームワークの有効性を示す。
関連論文リスト
- Pareto Optimal Algorithmic Recourse in Multi-cost Function [0.44938884406455726]
アルゴリズム的リコースは、個々の特徴を変更するために最小限のコストのアクションを識別することを目的としており、それによって望ましい結果が得られる。
現在のリコース機構のほとんどは、コスト関数が微分可能であると仮定する勾配に基づく手法を使用しており、現実のシナリオでは適用できないことが多い。
本研究では,非微分可能かつ離散的多コスト関数を扱うアルゴリズム的リコースフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T03:16:08Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Defending Against Diverse Attacks in Federated Learning Through Consensus-Based Bi-Level Optimization [6.484902940268382]
敵対的攻撃は、多くの機械学習アプリケーションに重大な課題をもたらす。
我々は, 対角的条件下でのコンセンサスに基づく二段階最適化(CB$2$O)のレジリエンスを理論的に解析する。
我々は,相互作用する新しい多粒子系であるFedCB$2$Oを提案し,実世界のアプリケーションの要求に対処する実用的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-12-03T16:26:56Z) - Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。
本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。