論文の概要: Green MLOps: Closed-Loop, Energy-Aware Inference with NVIDIA Triton, FastAPI, and Bio-Inspired Thresholding
- arxiv url: http://arxiv.org/abs/2601.04250v1
- Date: Tue, 06 Jan 2026 15:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.820133
- Title: Green MLOps: Closed-Loop, Energy-Aware Inference with NVIDIA Triton, FastAPI, and Bio-Inspired Thresholding
- Title(参考訳): Green MLOps: クローズドループ、NVIDIA Tritonによるエナジーアウェア推論、FastAPI、バイオインスパイアされたThresholding
- Authors: Mustapha Hamdi, Mourad Jabou,
- Abstract要約: バイオインスパイアされたフレームワークは、タンパク質の折りたたみエネルギー盆地をコストの展望にマッピングする。
電力対エネルギーのトレードオフが望ましい場合にのみ、要求が認められます。
結果は、バイオ物理エネルギーモデルとグリーンMLORTOpsを結びつけ、生産におけるクローズドループエネルギー認識推論の実践的で監査可能な基礎を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Energy efficiency is a first-order concern in AI deployment, as long-running inference can exceed training in cumulative carbon impact. We propose a bio-inspired framework that maps protein-folding energy basins to inference cost landscapes and controls execution via a decaying, closed-loop threshold. A request is admitted only when the expected utility-to-energy trade-off is favorable (high confidence/utility at low marginal energy and congestion), biasing operation toward the first acceptable local basin rather than pursuing costly global minima. We evaluate DistilBERT and ResNet-18 served through FastAPI with ONNX Runtime and NVIDIA Triton on an RTX 4000 Ada GPU. Our ablation study reveals that the bio-controller reduces processing time by 42% compared to standard open-loop execution (0.50s vs 0.29s on A100 test set), with a minimal accuracy degradation (<0.5%). Furthermore, we establish the efficiency boundaries between lightweight local serving (ORT) and managed batching (Triton). The results connect biophysical energy models to Green MLOps and offer a practical, auditable basis for closed-loop energy-aware inference in production.
- Abstract(参考訳): エネルギー効率は、長期の推論が累積的な炭素影響のトレーニングを超える可能性があるため、AIデプロイメントにおける第一次関心事である。
本稿では,タンパク質の折りたたみエネルギー流域をコストランドスケープの推論にマッピングし,崩壊したクローズドループしきい値による実行を制御するバイオインスパイアされたフレームワークを提案する。
要求は、コストのかかるグローバルなミニマを追求するよりも、第1の許容地域盆地への偏りなく、期待される実用とエネルギーのトレードオフが好ましく(低限界エネルギーと混雑時の高信頼・実用性)場合にのみ認められる。
我々は,RTX 4000 Ada GPU上で,ONNX RuntimeとNVIDIA Tritonを使用したFastAPIによるDistilBERTとResNet-18の評価を行った。
以上の結果から,バイオコントローラは標準オープンループ実行(A100テストセットでは0.50s対0.29s)に比べて処理時間を42%削減し,最小精度の劣化(0.5%)が得られた。
さらに,軽量ローカルサービス (ORT) とマネージドバッチ処理 (Triton) の効率境界を確立する。
この結果は、バイオ物理エネルギーモデルとGreen MLOpsを結びつけ、生産におけるクローズドループエネルギー認識推論の実践的で監査可能な基礎を提供する。
関連論文リスト
- Energy Use of AI Inference: Efficiency Pathways and Test-Time Compute [4.8312457834136175]
非生産推定と仮定はエネルギー使用量を4-20倍に超過することができる。
モデル,サービスプラットフォーム,ハードウェアレベルでの達成可能な効率向上の定量化を行う。
10億のクエリを毎日0.8GWhと見積もる。
論文 参考訳(メタデータ) (2025-09-24T15:32:01Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference [0.0]
本稿では,商用データセンタにデプロイされる30の最先端モデルを対象とした,AI推論の環境フットプリントを定量化する,新たなインフラストラクチャ対応ベンチマークフレームワークを提案する。
以上の結果から,O3とDeepSeek-R1が最もエネルギー集約的なモデルとして出現し,GPT-4.1ナノの70倍以上のGPT-4.1ナノを消費し,Claude-3.7 Sonnetはエコ効率で最高であることがわかった。
AIは安価で速くなっているが、そのグローバルな採用はリソース消費を不均等にしている。
論文 参考訳(メタデータ) (2025-05-14T17:47:00Z) - Low-cost Embedded Breathing Rate Determination Using 802.15.4z IR-UWB Hardware for Remote Healthcare [2.6066253940276347]
本稿では,超広帯域(UWB)チャネルインパルス応答(CIR)データから呼吸速度を予測するための畳み込みニューラルネットワーク(CNN)を提案する。
46KBのメモリを必要とするnRF52840システムにアルゴリズムをデプロイし,192msの推論時間で動作可能であることを示す。
論文 参考訳(メタデータ) (2025-04-03T07:54:25Z) - A Safe Genetic Algorithm Approach for Energy Efficient Federated
Learning in Wireless Communication Networks [53.561797148529664]
フェデレートラーニング(FL)は、従来の集中型アプローチとは対照的に、デバイスが協調的にモデルトレーニングを行う分散技術として登場した。
FLの既存の取り組みにもかかわらず、その環境影響は、無線ネットワークへの適用性に関するいくつかの重要な課題が特定されているため、まだ調査中である。
現在の研究は遺伝的アルゴリズム(GA)アプローチを提案しており、FLプロセス全体のエネルギー消費と不要な資源利用の両方を最小化することを目標としている。
論文 参考訳(メタデータ) (2023-06-25T13:10:38Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - BottleFit: Learning Compressed Representations in Deep Neural Networks
for Effective and Efficient Split Computing [48.11023234245863]
圧縮速度が強い場合でも高い精度を達成するための新しいトレーニング戦略を含む,BottleFitと呼ばれる新しいフレームワークを提案する。
BottleFitは77.1%のデータ圧縮を実現し、ImageNetデータセットでは最大で0.6%の精度でロスする。
本稿では,BottleFitが消費電力とレイテンシを最大で49%,(w.r.t.)ローカルコンピューティングでは89%,エッジオフロードでは37%,W.r.t.エッジオフロードでは55%削減することを示した。
論文 参考訳(メタデータ) (2022-01-07T22:08:07Z) - Energy-Efficient Model Compression and Splitting for Collaborative
Inference Over Time-Varying Channels [52.60092598312894]
本稿では,エッジノードとリモートノード間のモデル圧縮と時間変化モデル分割を利用して,エッジデバイスにおける総エネルギーコストを削減する手法を提案する。
提案手法は, 検討されたベースラインと比較して, エネルギー消費が最小限であり, 排出コストが$CO$となる。
論文 参考訳(メタデータ) (2021-06-02T07:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。