論文の概要: Beyond Augmented-Action Surrogates for Multi-Expert Learning-to-Defer
- arxiv url: http://arxiv.org/abs/2604.09414v1
- Date: Fri, 10 Apr 2026 15:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.930983
- Title: Beyond Augmented-Action Surrogates for Multi-Expert Learning-to-Defer
- Title(参考訳): マルチエキスパートラーニング・ツー・デファレンスのためのAugmented-Action Surrogates
- Authors: Yannis Montreuil, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi,
- Abstract要約: Learning-to-Deferは、すべての専門家に利用可能な情報が決定時に固定されていると仮定する。
異なる頭部を持つ経路とアドバイスを学習する自然分離サロゲートの広いファミリーが、最小限の非自明な設定でも矛盾していることを示す。
本稿では,複合専門家のアクション空間で動作する拡張サロゲートを導入し,$mathcalH$-consistencyの保証を証明した。
- 参考スコア(独自算出の注目度): 6.792743621449621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-to-Defer routes each input to the expert that minimizes expected cost, but it assumes that the information available to every expert is fixed at decision time. Many modern systems violate this assumption: after selecting an expert, one may also choose what additional information that expert should receive, such as retrieved documents, tool outputs, or escalation context. We study this problem and call it Learning-to-Defer with advice. We show that a broad family of natural separated surrogates, which learn routing and advice with distinct heads, is inconsistent even in the smallest non-trivial setting. We then introduce an augmented surrogate that operates on the composite expert--advice action space and prove an $\mathcal{H}$-consistency guarantee together with an excess-risk transfer bound, yielding recovery of the Bayes-optimal policy in the limit. Experiments on tabular, language, and multi-modal tasks show that the resulting method improves over standard Learning-to-Defer while adapting its advice-acquisition behavior to the cost regime; a synthetic benchmark confirms the failure mode predicted for separated surrogates.
- Abstract(参考訳): Learning-to-Deferは、各入力を専門家にルーティングし、予測されるコストを最小限にするが、すべての専門家に利用可能な情報が決定時に固定されていると仮定する。
専門家を選択した後、検索されたドキュメント、ツール出力、エスカレーションコンテキストなど、専門家が受け取るべき追加情報を選択することもできる。
この問題を研究し、アドバイスでLearning-to-Deferと呼ぶ。
異なる頭部を持つ経路とアドバイスを学習する自然分離サロゲートの広いファミリーが、最小限の非自明な設定でも矛盾していることを示す。
次に、複合専門家-アドバイスアクション空間で動作する拡張サロゲートを導入し、過剰リスク転送境界とともに$\mathcal{H}$-consistencyの保証を証明し、この制限でベイズ最適化ポリシーを回復する。
表計算,言語,マルチモーダルタスクの実験から,提案手法は標準学習よりもコスト体系に適応しながら改善され,合成ベンチマークでは,分離したサロゲートに対して予測される障害モードを確認する。
関連論文リスト
- Learning-to-Defer with Expert-Conditioned Advice [6.3315181414487585]
Learning-to-Deferは、すべての専門家に利用可能な情報が決定時に固定されていると仮定する。
異なる頭部を持つ経路とアドバイスを学習する自然分離サロゲートの広いファミリーが、最小限の非自明な設定でも矛盾していることを示す。
本稿では,複合専門家のアクション空間で動作する拡張サロゲートを導入し,$mathcalH$-consistencyの保証を証明した。
論文 参考訳(メタデータ) (2026-03-15T10:52:58Z) - SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Mastering Multiple-Expert Routing: Realizable $H$-Consistency and Strong Guarantees for Learning to Defer [30.389055604165222]
本稿では,理論学習の保証が強い新しい代理損失関数と効率的なアルゴリズムを提案する。
実現可能な$H$一貫性、$H$一貫性境界、単段階および二段階の学習シナリオにおけるベイズ一貫性に関するオープンな疑問に対処する。
実効化可能な$H$整合性,$H$整合性境界,および2つの経験的シナリオに対するベイズ整合性,そして自然仮定の下では多重経験的シナリオを実現するための新たな代理的損失を導出する。
論文 参考訳(メタデータ) (2025-06-25T17:48:58Z) - Why Ask One When You Can Ask $k$? Learning-to-Defer to the Top-$k$ Experts [6.792743621449621]
我々は、Top-k$ Learning-to-Deferの最初のフレームワークを紹介します。
クエリを$k$のコスト効率の高いエンティティに割り当てる。
また、クエリ毎に最適な専門家数を学ぶ適応型変種であるTop-$k(x)$ Learning-to-Deferを提案する。
論文 参考訳(メタデータ) (2025-04-17T14:50:40Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。