論文の概要: ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler
- arxiv url: http://arxiv.org/abs/2601.20755v2
- Date: Thu, 29 Jan 2026 10:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 14:13:20.136296
- Title: ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler
- Title(参考訳): ProfInfer: eBPFベースのファイングラインドLDM推論プロファイラ
- Authors: Bohua Zou, Debayan Roy, Dhimankumar Yogesh Airao, Weihao Xu, Binqi Sun, Yutao Liu, Haibo Chen,
- Abstract要約: 最新の推論エンジンのためのきめ細かな非侵入型プロファイリングフレームワークを開発した。
私たちのシステムは、ソースの変更や再コンパイルなしに、複数のレイヤにわたるランタイム関数にプローブをアタッチします。
収集されたトレースを演算子、グラフ、タイムライン、ハードウェアカウンタトレンドのリッチな視覚化に変換する。
- 参考スコア(独自算出の注目度): 4.191309912359899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) move from research to production, understanding how inference engines behave in real time has become both essential and elusive. Unlike general-purpose engines such as ONNX Runtime, today's LLM inference systems offer little operator-level visibility, leaving developers blind to where time and resources go. Even basic questions -- is this workload memory-bound or compute-bound? -- often remain unanswered. To close this gap, we develop a fine-grained, non-intrusive profiling framework for modern LLM inference engines, exemplified by llama-cpp but applicable to similar runtime architectures. Built on extended Berkeley Packet Filter (eBPF) technology, our system dynamically attaches probes to runtime functions across multiple layers -- without modifying or recompiling the source. It transforms collected traces into rich visualizations of operators, graphs, timelines, and hardware counter trends, exposing how dense inference, Mixture-of-Experts routing, and operator offloading behave in practice. With less than 4% runtime overhead and high profiling fidelity, our framework makes LLM inference both transparent and diagnosable, turning performance profiling into a practical tool for optimization, scheduling, and resource-aware deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)が研究から本番環境へ移行するにつれ、推論エンジンがリアルタイムでどのように振る舞うかを理解することは、必須かつ解明的になった。
ONNX Runtimeのような汎用エンジンとは異なり、今日のLLM推論システムは演算子レベルの可視性をほとんど提供せず、開発者は時間とリソースの行き先を見失っている。
このワークロードはメモリバウンドなのか、それとも計算バウンドなのか?
しばしば未回答のままである。
このギャップを埋めるために、llama-cpp で例示される現代の LLM 推論エンジンのための細粒で非侵襲的なプロファイリングフレームワークを開発し、同様のランタイムアーキテクチャに適用する。
拡張バークレーパケットフィルタ(eBPF)技術に基づいて構築された当社のシステムは、ソースの変更や再コンパイルなしに、複数のレイヤにわたるランタイム関数にプローブを動的にアタッチする。
収集されたトレースを演算子、グラフ、タイムライン、ハードウェアカウンタトレンドのリッチな視覚化に変換することで、密集した推論、Mixture-of-Expertsルーティング、オペレータのオフロードが実際にどのように振舞うかを明らかにする。
実行時のオーバーヘッドが4%未満でプロファイリングの忠実度が高いため、当社のフレームワークはLLM推論を透過的かつ診断可能にし、パフォーマンスプロファイリングを最適化、スケジューリング、リソース対応デプロイメントのための実用的なツールにします。
関連論文リスト
- Optimizing Agentic Language Model Inference via Speculative Tool Calls [4.106903307413157]
推論過程における性能ボトルネックに対処するために,新しいシステム最適化を導入する。
我々の最適化により、LMエージェントの推論をホストする場合、毎秒数百トークンのスループットが向上する。
LMプロバイダがこれらの最適化を簡単に適用できるように、新しい"ツールキャッシュ"APIエンドポイントを推奨します。
論文 参考訳(メタデータ) (2025-12-17T18:22:44Z) - AutoMLGen: Navigating Fine-Grained Optimization for Coding Agents [27.864519204078004]
大規模言語モデル(LLM)は、一般的なプログラミングタスクにおいて印象的なパフォーマンスを示している。
我々は、高品質な事前ガイダンスのためのドメイン知識ベースを統合するLLMベースのコーディングエージェントであるAutoMLGenを紹介する。
以上の結果から,AutoMLGenは平均メダル率や有効な応募率など,数多くの分野で最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2025-10-09T17:45:05Z) - Semantic-Aware Scheduling for GPU Clusters with Large Language Models [60.14838697778884]
我々は、スケジューラと管理するジョブ間のセマンティックギャップを橋渡しするフレームワークであるSchedMateを提案する。
SchedMateは見過ごされ、構造化されていないデータソース(ソースコード、ランタイムログ、履歴ジョブ)から深い洞察を抽出する。
我々は、SchedMateが平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-02T02:01:02Z) - MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Dissecting the Runtime Performance of the Training, Fine-tuning, and
Inference of Large Language Models [26.2566707495948]
大規模言語モデル(LLM)は、学術と産業の両方で大きく進歩している。
我々は,事前学習,微調整,LLMを異なるサイズで提供する場合のエンドツーエンド性能をベンチマークする。
次に,LLMにおける計算処理や通信演算子など,サブモジュールの詳細なランタイム解析を行う。
論文 参考訳(メタデータ) (2023-11-07T03:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。