Fugu-MT 論文翻訳(概要): Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to a Set of Experts

論文の概要: Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to a Set of Experts

arxiv url: http://arxiv.org/abs/2504.12988v1
Date: Thu, 17 Apr 2025 14:50:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 18:31:13.046134
Title: Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to a Set of Experts
Title（参考訳）: なぜ$k$を尋ねられるのか? 専門家のセットに2段階の学習- to-Defer
Authors: Yannis Montreuil, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi,
Abstract要約: L2D(Learning-to-Defer)は、不確実な予測をより有能なエージェントに選択的に延期することで、意思決定システムによる信頼性の向上を可能にする。本稿では,従来の2段階L2Dフレームワークを一般化したTop-k$ Learning-to-Deferを提案する。柔軟性とコスト効率をさらに向上するため,各クエリに対して最適なエージェント数を求める適応型拡張であるTop-$k(x)$ Learning-to-Deferを導入する。
参考スコア（独自算出の注目度）: 3.6787328174619254
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Learning-to-Defer (L2D) enables decision-making systems to improve reliability by selectively deferring uncertain predictions to more competent agents. However, most existing approaches focus exclusively on single-agent deferral, which is often inadequate in high-stakes scenarios that require collective expertise. We propose Top-$k$ Learning-to-Defer, a generalization of the classical two-stage L2D framework that allocates each query to the $k$ most confident agents instead of a single one. To further enhance flexibility and cost-efficiency, we introduce Top-$k(x)$ Learning-to-Defer, an adaptive extension that learns the optimal number of agents to consult for each query, based on input complexity, agent competency distributions, and consultation costs. For both settings, we derive a novel surrogate loss and prove that it is Bayes-consistent and $(\mathcal{R}, \mathcal{G})$-consistent, ensuring convergence to the Bayes-optimal allocation. Notably, we show that the well-established model cascades paradigm arises as a restricted instance of our Top-$k$ and Top-$k(x)$ formulations. Extensive experiments across diverse benchmarks demonstrate the effectiveness of our framework on both classification and regression tasks.
Abstract（参考訳）: L2D(Learning-to-Defer)は、不確実な予測をより有能なエージェントに選択的に延期することで、意思決定システムによる信頼性の向上を可能にする。しかし、既存のほとんどのアプローチは、集合的な専門知識を必要とする高度なシナリオでは不十分な単一エージェントのdeferralにのみ焦点を当てている。本稿では,従来の2段階L2Dフレームワークを一般化したTop-k$ Learning-to-Deferを提案する。柔軟性とコスト効率をさらに高めるため、入力複雑性、エージェント能力分布、コンサルティングコストに基づいて、クエリ毎に最適なエージェント数を学習する適応的拡張であるTop-$k(x)$ Learning-to-Deferを導入する。どちらの設定に対しても、新しい代理損失を導出し、ベイズ-最適割り当てへの収束を保証するために、それがベイズ-整合かつ$(\mathcal{R}, \mathcal{G})$-整合であることを証明する。特に、確立されたモデルカスケードパラダイムが、Top-$k$とTop-$k(x)$の制限インスタンスとして現れることを示す。様々なベンチマークにわたる大規模な実験は、分類タスクと回帰タスクの両方において、我々のフレームワークの有効性を示す。

関連論文リスト

Mastering Multiple-Expert Routing: Realizable $H$-Consistency and Strong Guarantees for Learning to Defer [30.389055604165222]
本稿では,理論学習の保証が強い新しい代理損失関数と効率的なアルゴリズムを提案する。実現可能な$H$一貫性、$H$一貫性境界、単段階および二段階の学習シナリオにおけるベイズ一貫性に関するオープンな疑問に対処する。実効化可能な$H$整合性,$H$整合性境界,および2つの経験的シナリオに対するベイズ整合性,そして自然仮定の下では多重経験的シナリオを実現するための新たな代理的損失を導出する。
論文参考訳（メタデータ） (2025-06-25T17:48:58Z)
One-Stage Top-$k$ Learning-to-Defer: Score-Based Surrogates with Theoretical Guarantees [3.6787328174619254]
最初の1段階のTop-k$ Learning-to-Deferフレームワークを紹介します。我々は、最もコスト効率の良いエンティティラベルや専門家1人当たりのインプットを$k$で選択するスコアベースの共有モデルを学ぶ。 CIFAR-10とSVHNの実験により、我々の1段階のTop-$k$法がTop-1deferralを厳密に上回っていることを確認した。
論文参考訳（メタデータ） (2025-05-15T10:41:16Z)
Token-Level Prompt Mixture with Parameter-Free Routing for Federated Domain Generalization [51.562474873972086]
Federated Domain Generalization (FedDG)は、異種データを持つ分散クライアントからグローバルに一般化可能なモデルを学ぶことを目的としている。近年の研究では、単一のグローバルなプロンプトを学習することで、FedDGの視覚言語モデル(VLM)を適応させる素早い学習が導入されている。本稿では,FedDGのためのパラメータフリールーティングフレームワークであるTRIPを提案する。
論文参考訳（メタデータ） (2025-04-29T11:06:03Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文参考訳（メタデータ） (2025-03-07T18:03:13Z)
ExpertGenQA: Open-ended QA generation in Specialized Domains [9.412082058055823]
ExpertGenQAは、いくつかのショット学習と構造化トピックとスタイル分類を組み合わせて、包括的なドメイン固有のQAペアを生成するプロトコルである。 ExpertGenQAは,9,4.4%のトピックカバレッジを維持しつつ,ベースライン数ショットアプローチの効率を2倍に向上することを示す。
論文参考訳（メタデータ） (2025-03-04T19:09:48Z)
Pareto Optimal Algorithmic Recourse in Multi-cost Function [0.44938884406455726]
アルゴリズム的リコースは、個々の特徴を変更するために最小限のコストのアクションを識別することを目的としており、それによって望ましい結果が得られる。現在のリコース機構のほとんどは、コスト関数が微分可能であると仮定する勾配に基づく手法を使用しており、現実のシナリオでは適用できないことが多い。本研究では,非微分可能かつ離散的多コスト関数を扱うアルゴリズム的リコースフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-11T03:16:08Z)
Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-21T08:21:00Z)
A Two-Stage Learning-to-Defer Approach for Multi-Task Learning [3.4289478404209826]
分類タスクと回帰タスクを共同で扱うマルチタスク学習のための新しい2段階学習フレームワークを提案する。我々は,分類と回帰が密結合した物体検出,電子健康記録解析の2つの課題に対して,我々の枠組みを検証した。
論文参考訳（メタデータ） (2024-10-21T07:44:57Z)
Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文参考訳（メタデータ） (2024-01-08T12:39:25Z)
Active Ranking of Experts Based on their Performances in Many Tasks [72.96112117037465]
我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。我々は,各専門家のペアに対して,各タスクにおいて他方よりも優れているという,単調な仮定を定めている。
論文参考訳（メタデータ） (2023-06-05T06:55:39Z)
No-Regret Online Prediction with Strategic Experts [16.54912614895861]
オンラインバイナリ予測の一般化をエキスパートアドバイスフレームワークを用いて研究し、各ラウンドで、学習者は、Kドルの専門家のプールからmgeq 1ドルの専門家を選ぶことができる。我々は、専門家が戦略的に行動し、彼らの信念を誤報することでアルゴリズムの予測への影響を最大化することを目的とした設定に焦点を当てる。目標は,次の2つの要件を満たすアルゴリズムを設計することです。 1) $textitIncentive-compatible$: 専門家に信念を真実に報告させるインセンティブ,2) $textitNo-regret$: Achieve。
論文参考訳（メタデータ） (2023-05-24T16:43:21Z)
Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文参考訳（メタデータ） (2023-02-02T16:30:33Z)
Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文参考訳（メタデータ） (2022-02-28T12:10:48Z)
$k\ exttt{-experts}$ -- Online Policies and Fundamental Limits [8.84337023214151]
本稿では,textttExperts$問題について検討する。学習者は各ラウンドで$k$のエキスパートのサブセットをN$のエキスパートのプールから選択する。任意のラウンドで学習者が得られる報酬は、選択した専門家の報酬に依存する。
論文参考訳（メタデータ） (2021-10-15T06:30:15Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)
Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文参考訳（メタデータ） (2020-09-01T16:52:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。