論文の概要: Learning-to-Defer with Expert-Conditioned Advice
- arxiv url: http://arxiv.org/abs/2603.14324v1
- Date: Sun, 15 Mar 2026 10:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.748388
- Title: Learning-to-Defer with Expert-Conditioned Advice
- Title(参考訳): エキスパート・コンディションド・アドバイザによる学習から学習へ
- Authors: Yannis Montreuil, Leina Montreuil, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi,
- Abstract要約: Learning-to-Deferは、各入力を予測コストを最小限にする専門家にルーティングするが、すべての専門家に利用可能な情報が決定時に固定されていると仮定する。
異なる頭部を持つ経路やアドバイスを学習する自然分離サロゲートの広いファミリーが、最小限の非自明な設定でも矛盾していることを示す。
本稿では,複合専門家のアクション空間で動作する拡張サロゲートを導入し,$mathcalH$-consistencyの保証を証明した。
- 参考スコア(独自算出の注目度): 6.3315181414487585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-to-Defer routes each input to the expert that minimizes expected cost, but it assumes that the information available to every expert is fixed at decision time. Many modern systems violate this assumption: after selecting an expert, one may also choose what additional information that expert should receive, such as retrieved documents, tool outputs, or escalation context. We study this problem and call it Learning-to-Defer with advice. We show that a broad family of natural separated surrogates, which learn routing and advice with distinct heads, are inconsistent even in the smallest non-trivial setting. We then introduce an augmented surrogate that operates on the composite expert--advice action space and prove an $\mathcal{H}$-consistency guarantee together with an excess-risk transfer bound, yielding recovery of the Bayes-optimal policy in the limit. Experiments on tabular, LLMs, and multi-modal tasks show that the resulting method improves over standard Learning-to-Defer while adapting its advice-acquisition behavior to the cost regime.
- Abstract(参考訳): Learning-to-Deferは、各入力を専門家にルーティングし、予測されるコストを最小限にするが、すべての専門家に利用可能な情報が決定時に固定されていると仮定する。
専門家を選択した後、検索されたドキュメント、ツール出力、エスカレーションコンテキストなど、専門家が受け取るべき追加情報を選択することもできる。
この問題を研究し、アドバイスでLearning-to-Deferと呼ぶ。
異なる頭部を持つ経路やアドバイスを学習する自然分離サロゲートの広いファミリーが、最小限の非自明な設定でも矛盾していることを示す。
次に、複合専門家-アドバイスアクション空間で動作する拡張サロゲートを導入し、過剰リスク転送境界とともに$\mathcal{H}$-consistencyの保証を証明し、この制限でベイズ最適化ポリシーを回復する。
表表, LLM, マルチモーダルタスクの実験から, 提案手法は標準学習よりも改善され, そのアドバイス獲得行動はコスト体系に適応することが示された。
関連論文リスト
- SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Budgeted Multiple-Expert Deferral [38.13580998392063]
遅延アルゴリズムのトレーニング手順は、通常、トレーニングインスタンス毎にすべての専門家に問い合わせる必要がある。
本稿では,有能な遅延アルゴリズムのトレーニングを目標とし,訓練中の専門的なクエリコストを最小化することを目的とした,予算付きdeferralフレームワークを紹介する。
本稿では,2段階と1段階のマルチエキスパートのdeferral設定に対して,トレーニング例あたりのエキスパートのサブセットのみを選択的にクエリするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-30T17:08:52Z) - Bayesian Decision Making around Experts [3.1764800782234297]
我々は、専門家データが学習者の後部に与える影響を定式化し、専門家の成果に対する事前学習が情報理論的後悔の境界を締め付けることを証明した。
専門家データの価値を定量化することにより、我々のフレームワークはエージェントがいつ他人から学ぶべきかをインテリジェントに決定するための実践的で情報理論的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2025-10-09T11:53:19Z) - Why Ask One When You Can Ask $k$? Learning-to-Defer to the Top-$k$ Experts [6.792743621449621]
我々は、Top-k$ Learning-to-Deferの最初のフレームワークを紹介します。
クエリを$k$のコスト効率の高いエンティティに割り当てる。
また、クエリ毎に最適な専門家数を学ぶ適応型変種であるTop-$k(x)$ Learning-to-Deferを提案する。
論文 参考訳(メタデータ) (2025-04-17T14:50:40Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Learning without Knowing: Unobserved Context in Continuous Transfer
Reinforcement Learning [16.814772057210366]
連続状態と行動空間における伝達強化学習問題を、観測不能な文脈情報の下で検討する。
我々のゴールは、コンテキスト認識の専門家データを使用して、学習者に最適なコンテキスト認識ポリシーを学習することである。
論文 参考訳(メタデータ) (2021-06-07T17:49:22Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。