論文の概要: One-Stage Top-$k$ Learning-to-Defer: Score-Based Surrogates with Theoretical Guarantees
- arxiv url: http://arxiv.org/abs/2505.10160v1
- Date: Thu, 15 May 2025 10:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.285046
- Title: One-Stage Top-$k$ Learning-to-Defer: Score-Based Surrogates with Theoretical Guarantees
- Title(参考訳): 1段階のTop-k$Learning-to-Defer:理論的保証付きスコアベースサロゲート
- Authors: Yannis Montreuil, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi,
- Abstract要約: 最初の1段階のTop-k$ Learning-to-Deferフレームワークを紹介します。
我々は、最もコスト効率の良いエンティティラベルや専門家1人当たりのインプットを$k$で選択するスコアベースの共有モデルを学ぶ。
CIFAR-10とSVHNの実験により、我々の1段階のTop-$k$法がTop-1deferralを厳密に上回っていることを確認した。
- 参考スコア(独自算出の注目度): 3.6787328174619254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the first one-stage Top-$k$ Learning-to-Defer framework, which unifies prediction and deferral by learning a shared score-based model that selects the $k$ most cost-effective entities-labels or experts-per input. While existing one-stage L2D methods are limited to deferring to a single expert, our approach jointly optimizes prediction and deferral across multiple entities through a single end-to-end objective. We define a cost-sensitive loss and derive a novel convex surrogate that is independent of the cardinality parameter $k$, enabling generalization across Top-$k$ regimes without retraining. Our formulation recovers the Top-1 deferral policy of prior score-based methods as a special case, and we prove that our surrogate is both Bayes-consistent and $\mathcal{H}$-consistent under mild assumptions. We further introduce an adaptive variant, Top-$k(x)$, which dynamically selects the number of consulted entities per input to balance predictive accuracy and consultation cost. Experiments on CIFAR-10 and SVHN confirm that our one-stage Top-$k$ method strictly outperforms Top-1 deferral, while Top-$k(x)$ achieves superior accuracy-cost trade-offs by tailoring allocations to input complexity.
- Abstract(参考訳): 我々は,1段階のTop-k$ Learning-to-Deferフレームワークを紹介した。これは,最もコスト効率のよいエンティティラベルや専門家毎の入力を選択する共有スコアベースモデルを学習することで,予測と推論を統一するフレームワークである。
既存のワンステージL2D法は1つの専門家に委ねることに制限があるが,本手法は1つのエンドツーエンドの目的を通じて複数のエンティティをまたがる予測と遅延を共同で最適化する。
コストに敏感な損失を定義し、濃度パラメータ$k$に依存しない新しい凸代理を導出し、再トレーニングなしでTop-$k$体制を一般化する。
我々の定式化は, 従来のスコアベース手法のTop-1のdeferral Policyを特別な場合として回復し, 緩やかな仮定でベイズ一貫性と$\mathcal{H}$-consistentの2つのサロゲートを証明した。
さらに、適応的変種であるTop-$k(x)$を導入し、インプット毎に相談対象の数を動的に選択し、予測精度とコンサルティングコストのバランスをとる。
CIFAR-10 と SVHN の実験では,1段階の Top-$k$ がTop-1 よりも厳密に優れており,Top-$k(x)$ は入力複雑性を調整して精度の高いトレードオフを実現する。
関連論文リスト
- Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to the Top-$k$ Experts [3.6787328174619254]
我々はTop-k$ Learning-to-Deferの最初のフレームワークを紹介します。
提案するTop-$k(x)$ Learning-to-Deferは,入力複雑性,エキスパート品質,コンサルテーションコストに基づいて,クエリ毎の専門家数を最適に学習する適応型拡張である。
論文 参考訳(メタデータ) (2025-04-17T14:50:40Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。
我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。
我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-27T18:00:08Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Top-$k$ Classification and Cardinality-Aware Prediction [30.389055604165222]
和和と制約付き損失は、上位の$k$損失に対する$H$一貫性境界によって支持されることを示す。
本稿では、インスタンス依存型コスト依存学習を通じて、基数認識損失関数を導入する。
これらの損失を最小限に抑えることで、トップ$kの分類のための新しい濃度認識アルゴリズムが生まれる。
論文 参考訳(メタデータ) (2024-03-28T17:45:03Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。