論文の概要: T-TAMER: Provably Taming Trade-offs in ML Serving
- arxiv url: http://arxiv.org/abs/2509.22992v1
- Date: Fri, 26 Sep 2025 23:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.969599
- Title: T-TAMER: Provably Taming Trade-offs in ML Serving
- Title(参考訳): T-TAMER: MLにおけるトレードオフに対処する可能性
- Authors: Yuanyuan Yang, Ruimin Zhang, Jamie Morgenstern, Haifeng Xu,
- Abstract要約: 我々は、この設定を多段階決定プロセスとして定式化する一般的なフレームワーク、T-Tamerを提案する。
我々の主な結果は、リコールは、証明可能なパフォーマンス保証を達成するのに必要であり、十分であることを示している。
その結果、リコールベースの戦略は効率のよいレイテンシトレードオフをもたらすことがわかった。
- 参考スコア(独自算出の注目度): 32.526955555483354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As machine learning models continue to grow in size and complexity, efficient serving faces increasingly broad trade-offs spanning accuracy, latency, resource usage, and other objectives. Multi-model serving further complicates these trade-offs; for example, in cascaded models, each early-exit decision balances latency reduction against potential accuracy loss. Despite the pervasiveness and importance of such trade-offs, current strategies remain largely heuristic and case-specific, limiting both their theoretical guarantees and general applicability. We present a general framework, T-Tamer, which formalizes this setting as a multi-stage decision process, where the objective is to determine both when to exit and which model to consult. Our main result shows that recall (i.e., the ability to revisit earlier models) is both necessary and sufficient for achieving provable performance guarantees. In particular, we prove that strategies without recall cannot obtain any constant-factor approximation to the optimal trade-off, whereas recall-based strategies provably attain the optimal trade-off in polynomial time. We validate our analysis through experiments on synthetic datasets and early-exit workloads for vision and NLP benchmarks. The results show that recall-based strategies consistently yield efficient accuracy-latency trade-offs. We hope this work provides a principled foundation for bridging heuristic practice with theoretical guarantees in the design of early-exit and cascaded models.
- Abstract(参考訳): 機械学習モデルのサイズと複雑さが拡大し続ければ、正確性、レイテンシ、リソース使用量、その他の目的にまたがる効率的なサービス提供は、ますます幅広いトレードオフに直面します。
マルチモデルはこれらのトレードオフをさらに複雑にし、例えばカスケードモデルでは、各早期終了決定は遅延低減と潜在的な精度損失のバランスをとる。
このようなトレードオフの広がりと重要性にもかかわらず、現在の戦略は概ねヒューリスティックでケース固有であり、理論上の保証と一般的な適用性の両方を制限している。
本稿では、この設定を多段階決定プロセスとして定式化する一般的なフレームワークT-Tamerについて述べる。
我々の主な結果は、リコール(つまり、以前のモデルを再検討する能力)が、証明可能な性能保証を達成するのに必要かつ十分であることを示している。
特に、リコールのない戦略が最適トレードオフに対する定数近似を得られないことを証明する一方、リコールベースの戦略は多項式時間で最適トレードオフを確実に達成する。
我々は、視覚とNLPベンチマークのための合成データセットと早期終了ワークロードの実験を通して、分析を検証した。
その結果、リコールベースの戦略は効率のよいレイテンシトレードオフをもたらすことがわかった。
この研究は、初期およびケースドモデルの設計において理論的に保証されたヒューリスティックな実践をブリッジするための原則的な基盤を提供することを期待している。
関連論文リスト
- SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs [53.77646961962239]
Supervised Fine-Tuning (SFT) は、大規模言語モデル(LLM)を特殊タスクに適用するための一般的なアプローチである。
より少ない学習率で一般的な性能劣化を著しく軽減することができる。
論文 参考訳(メタデータ) (2025-09-25T05:28:22Z) - End-to-End Large Portfolio Optimization for Variance Minimization with Neural Networks through Covariance Cleaning [0.0]
我々は,世界規模の最小分散ポートフォリオを提供する回転不変ニューラルネットワークを開発した。
この明示的な数学的写像は各加群の役割を明確に解釈できる。
単一モデルは数百株のパネルで校正でき、再訓練せずに1000米国株に適用される。
論文 参考訳(メタデータ) (2025-07-02T17:27:29Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - LoRanPAC: Low-rank Random Features and Pre-trained Models for Bridging Theory and Practice in Continual Learning [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
理論的に健全で高性能な単純なCL法を設計することで,このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - On the Generalization of Preference Learning with DPO [17.420727709895736]
大きな言語モデル(LLM)は目覚ましい能力を示してきたが、しばしば人間の好みに合わせるのに苦労している。
嗜好学習は、人間のフィードバックに基づいて、好ましくない反応と好ましくない反応を区別するモデルを訓練する。
本稿では、直接選好最適化(DPO)で訓練されたモデルの一般化保証を解析するための新しい理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-08-06T22:11:00Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。