論文の概要: Beyond Augmented-Action Surrogates for Multi-Expert Learning-to-Defer
- arxiv url: http://arxiv.org/abs/2604.09414v2
- Date: Fri, 17 Apr 2026 07:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.191324
- Title: Beyond Augmented-Action Surrogates for Multi-Expert Learning-to-Defer
- Title(参考訳): マルチエキスパートラーニング・ツー・デファレンスのためのAugmented-Action Surrogates
- Authors: Yannis Montreuil, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi,
- Abstract要約: マルチエキスパートラーニング・ツー・デフレ・サロゲートは統計的に一貫性があるが、専門家が成長するにつれて不適合になり、有用な専門家を抑圧したり、劣化させたりすることができる。
クラスとエキスパートを1つの拡張予測幾何学内のアクションとしてキャストする。
本稿では,クラス後部をソフトマックスで推定し,各専門家ユーティリティを独立シグモイドで推定する分離サロゲートを提案する。
- 参考スコア(独自算出の注目度): 6.792743621449621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multi-expert learning-to-defer surrogates are statistically consistent, yet they can underfit, suppress useful experts, or degrade as the expert pool grows. We trace these failures to a shared architectural choice: casting classes and experts as actions inside one augmented prediction geometry. Consistency governs the population target; it says nothing about how the surrogate distributes gradient mass during training. We analyze five surrogates along both axes and show that each trades a fix on one for a failure on the other. We then introduce a decoupled surrogate that estimates the class posterior with a softmax and each expert utility with an independent sigmoid. It admits an $\mathcal{H}$-consistency bound whose constant is $J$-independent for fixed per-expert weight $β{=}λ/J$, and its gradients are free of the amplification, starvation, and coupling pathologies of the augmented family. Experiments on synthetic benchmarks, CIFAR-10, CIFAR-10H, and Covertype confirm that the decoupled surrogate is the only method that avoids amplification under redundancy, preserves rare specialists, and consistently improves over a standalone classifier across all settings.
- Abstract(参考訳): 既存のマルチエキスパートラーニング・ツー・デフレサロゲートは統計的に一貫性があるが、専門家が成長するにつれて不適合になり、有用な専門家を抑えるか、劣化させることができる。
クラスとエキスパートを1つの拡張予測幾何学内のアクションとしてキャストする。
一貫性は人口目標を統治するが、サロゲートが訓練中に勾配の質量を分配する方法については何も述べていない。
両軸に沿って5つのサロゲートを分析し、それぞれが一方の障害に対して一方の修正を交換していることを示す。
次に、分離されたサロゲートを導入し、クラス後部をソフトマックスで推定し、各専門家ユーティリティを独立したシグモイドで推定する。
定数が固定された一貫した重量に対して$J$非依存である$\mathcal{H}$-consistency boundは、$β{=}λ/J$であり、その勾配は拡張族の増幅、飢餓、結合病理を含まない。
合成ベンチマークであるCIFAR-10、CIFAR-10H、Covertypeの実験では、分離されたサロゲートが冗長性の下で増幅を回避し、希少な専門家を保護し、全ての設定でスタンドアロンの分類器よりも一貫して改善する唯一の方法であることを確認した。
関連論文リスト
- Learning-to-Defer with Expert-Conditioned Advice [6.3315181414487585]
Learning-to-Deferは、すべての専門家に利用可能な情報が決定時に固定されていると仮定する。
異なる頭部を持つ経路とアドバイスを学習する自然分離サロゲートの広いファミリーが、最小限の非自明な設定でも矛盾していることを示す。
本稿では,複合専門家のアクション空間で動作する拡張サロゲートを導入し,$mathcalH$-consistencyの保証を証明した。
論文 参考訳(メタデータ) (2026-03-15T10:52:58Z) - SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Mastering Multiple-Expert Routing: Realizable $H$-Consistency and Strong Guarantees for Learning to Defer [30.389055604165222]
本稿では,理論学習の保証が強い新しい代理損失関数と効率的なアルゴリズムを提案する。
実現可能な$H$一貫性、$H$一貫性境界、単段階および二段階の学習シナリオにおけるベイズ一貫性に関するオープンな疑問に対処する。
実効化可能な$H$整合性,$H$整合性境界,および2つの経験的シナリオに対するベイズ整合性,そして自然仮定の下では多重経験的シナリオを実現するための新たな代理的損失を導出する。
論文 参考訳(メタデータ) (2025-06-25T17:48:58Z) - Why Ask One When You Can Ask $k$? Learning-to-Defer to the Top-$k$ Experts [6.792743621449621]
我々は、Top-k$ Learning-to-Deferの最初のフレームワークを紹介します。
クエリを$k$のコスト効率の高いエンティティに割り当てる。
また、クエリ毎に最適な専門家数を学ぶ適応型変種であるTop-$k(x)$ Learning-to-Deferを提案する。
論文 参考訳(メタデータ) (2025-04-17T14:50:40Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。