論文の概要: 3D Optimization for AI Inference Scaling: Balancing Accuracy, Cost, and Latency
- arxiv url: http://arxiv.org/abs/2510.18905v1
- Date: Tue, 21 Oct 2025 01:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.227114
- Title: 3D Optimization for AI Inference Scaling: Balancing Accuracy, Cost, and Latency
- Title(参考訳): AI推論スケーリングのための3D最適化 - 正確性、コスト、レイテンシのバランスをとる
- Authors: Minseok Jung, Abhas Ricky, Muhammad Rameez Chatni,
- Abstract要約: 我々は、統合された意思決定空間内で精度、コスト、レイテンシを共同で調整する3D最適化フレームワークを導入する。
膝点最適化が最良バランスを達成するのに対して,精度の最大化は精度を優先しても良好であることを示す。
- 参考スコア(独自算出の注目度): 1.376408511310322
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI inference scaling is often tuned through 1D heuristics (a fixed reasoning passes) or 2D bivariate trade-offs (e.g., performance vs. compute), which fail to consider cost and latency constraints. We introduce a 3D optimization framework that jointly calibrates accuracy, cost, and latency within a unified decision space, enabling constraints-aware inference scaling. Using Monte Carlo simulations across three representative scenarios and nine simulated large language models, we evaluate four optimization methods to address the 3D multi-objective optimization (MOO) problem. Framing inference scaling in MOO shapes a feasible space that 1D and 2D optimizations fail to capture, enabling environmentadaptive selection of the inference scaling k. Results show that knee-point optimization achieves the best balance, while accuracy-maximization remains favorable when precision is prioritized. The framework establishes a theoretical foundation for deployment-aware inference scaling across diverse operational contexts.
- Abstract(参考訳): AI推論のスケーリングは、1Dヒューリスティック(固定的な推論パス)や2Dバイバリアントトレードオフ(例えば、パフォーマンス対計算)を通じて調整されることが多いが、コストとレイテンシの制約を考慮できない。
我々は,統合された決定空間内での精度,コスト,レイテンシを共同で校正する3D最適化フレームワークを導入し,制約を意識した推論スケーリングを可能にする。
3つの代表的なシナリオと9つの模擬大言語モデルにわたるモンテカルロシミュレーションを用いて、3次元多目的最適化(MOO)問題に対処する4つの最適化手法を評価する。
MOO のフラーミング推論スケーリングは、1D と 2D の最適化が捕捉できないような実現可能な空間を形成し、推論スケーリング k の環境適応的な選択を可能にする。
その結果, 膝点最適化が最適バランスを達成する一方で, 精度が優先される場合には, 精度の最大化が良好であることが示唆された。
このフレームワークは、さまざまな運用コンテキストにまたがるデプロイメント対応推論スケーリングの理論的基盤を確立する。
関連論文リスト
- ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - Uncertainty-Aware Testing-Time Optimization for 3D Human Pose Estimation [65.91490997921859]
本研究では3次元ポーズ推定のための不確実性認識テスト時間最適化(UAO)フレームワークを提案する。
このフレームワークは、事前訓練されたモデルの事前情報を保持し、関節の不確実性を用いて過度に適合する問題を緩和する。
我々のアプローチは、Human3.6Mの5.5%という大きなマージンで、これまでの最高の結果を上回っています。
論文 参考訳(メタデータ) (2024-02-04T04:28:02Z) - iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。
3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文 参考訳(メタデータ) (2023-12-14T15:31:33Z) - Camera Distortion-aware 3D Human Pose Estimation in Video with
Optimization-based Meta-Learning [23.200130129530653]
歪みのないデータセットでトレーニングされた既存の3次元ポーズ推定アルゴリズムは、特定のカメラ歪みのある新しいシナリオに適用した場合、パフォーマンス低下を被る。
本研究では, 歪み環境に迅速に適応できる簡易かつ効果的な3次元ポーズ推定モデルを提案する。
論文 参考訳(メタデータ) (2021-11-30T01:35:04Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。