Fugu-MT 論文翻訳(概要): ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler

論文の概要: ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler

arxiv url: http://arxiv.org/abs/2601.20755v2
Date: Thu, 29 Jan 2026 10:43:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-30 14:13:20.136296
Title: ProfInfer: An eBPF-based Fine-Grained LLM Inference Profiler
Title（参考訳）: ProfInfer: eBPFベースのファイングラインドLDM推論プロファイラ
Authors: Bohua Zou, Debayan Roy, Dhimankumar Yogesh Airao, Weihao Xu, Binqi Sun, Yutao Liu, Haibo Chen,
Abstract要約: 最新の推論エンジンのためのきめ細かな非侵入型プロファイリングフレームワークを開発した。私たちのシステムは、ソースの変更や再コンパイルなしに、複数のレイヤにわたるランタイム関数にプローブをアタッチします。収集されたトレースを演算子、グラフ、タイムライン、ハードウェアカウンタトレンドのリッチな視覚化に変換する。
参考スコア（独自算出の注目度）: 4.191309912359899
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) move from research to production, understanding how inference engines behave in real time has become both essential and elusive. Unlike general-purpose engines such as ONNX Runtime, today's LLM inference systems offer little operator-level visibility, leaving developers blind to where time and resources go. Even basic questions -- is this workload memory-bound or compute-bound? -- often remain unanswered. To close this gap, we develop a fine-grained, non-intrusive profiling framework for modern LLM inference engines, exemplified by llama-cpp but applicable to similar runtime architectures. Built on extended Berkeley Packet Filter (eBPF) technology, our system dynamically attaches probes to runtime functions across multiple layers -- without modifying or recompiling the source. It transforms collected traces into rich visualizations of operators, graphs, timelines, and hardware counter trends, exposing how dense inference, Mixture-of-Experts routing, and operator offloading behave in practice. With less than 4% runtime overhead and high profiling fidelity, our framework makes LLM inference both transparent and diagnosable, turning performance profiling into a practical tool for optimization, scheduling, and resource-aware deployment.
Abstract（参考訳）: 大規模言語モデル(LLM)が研究から本番環境へ移行するにつれ、推論エンジンがリアルタイムでどのように振る舞うかを理解することは、必須かつ解明的になった。 ONNX Runtimeのような汎用エンジンとは異なり、今日のLLM推論システムは演算子レベルの可視性をほとんど提供せず、開発者は時間とリソースの行き先を見失っている。このワークロードはメモリバウンドなのか、それとも計算バウンドなのか? しばしば未回答のままである。このギャップを埋めるために、llama-cpp で例示される現代の LLM 推論エンジンのための細粒で非侵襲的なプロファイリングフレームワークを開発し、同様のランタイムアーキテクチャに適用する。拡張バークレーパケットフィルタ(eBPF)技術に基づいて構築された当社のシステムは、ソースの変更や再コンパイルなしに、複数のレイヤにわたるランタイム関数にプローブを動的にアタッチする。収集されたトレースを演算子、グラフ、タイムライン、ハードウェアカウンタトレンドのリッチな視覚化に変換することで、密集した推論、Mixture-of-Expertsルーティング、オペレータのオフロードが実際にどのように振舞うかを明らかにする。実行時のオーバーヘッドが4%未満でプロファイリングの忠実度が高いため、当社のフレームワークはLLM推論を透過的かつ診断可能にし、パフォーマンスプロファイリングを最適化、スケジューリング、リソース対応デプロイメントのための実用的なツールにします。

関連論文リスト

AIConfigurator: Lightning-Fast Configuration Optimization for Multi-Framework LLM Serving [16.664502126572856]
AIConfiguratorは、Large Language Model(LLM)推論のための統一されたパフォーマンスモデリングシステムである。 GPUベースのプロファイリングを必要とせずに、迅速なフレームワークベースの構成検索を可能にする。これは、高密度モデルのパフォーマンスを最大40%向上させる優れたサービス構成を特定する。
論文参考訳（メタデータ） (2026-01-09T20:03:57Z)
Optimizing Agentic Language Model Inference via Speculative Tool Calls [4.106903307413157]
推論過程における性能ボトルネックに対処するために,新しいシステム最適化を導入する。我々の最適化により、LMエージェントの推論をホストする場合、毎秒数百トークンのスループットが向上する。 LMプロバイダがこれらの最適化を簡単に適用できるように、新しい"ツールキャッシュ"APIエンドポイントを推奨します。
論文参考訳（メタデータ） (2025-12-17T18:22:44Z)
AutoMLGen: Navigating Fine-Grained Optimization for Coding Agents [27.864519204078004]
大規模言語モデル(LLM)は、一般的なプログラミングタスクにおいて印象的なパフォーマンスを示している。我々は、高品質な事前ガイダンスのためのドメイン知識ベースを統合するLLMベースのコーディングエージェントであるAutoMLGenを紹介する。以上の結果から,AutoMLGenは平均メダル率や有効な応募率など,数多くの分野で最先端のパフォーマンスを実現していることがわかった。
論文参考訳（メタデータ） (2025-10-09T17:45:05Z)
Semantic-Aware Scheduling for GPU Clusters with Large Language Models [60.14838697778884]
我々は、スケジューラと管理するジョブ間のセマンティックギャップを橋渡しするフレームワークであるSchedMateを提案する。 SchedMateは見過ごされ、構造化されていないデータソース(ソースコード、ランタイムログ、履歴ジョブ)から深い洞察を抽出する。我々は、SchedMateが平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-10-02T02:01:02Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。 LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-01-28T03:18:48Z)
MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。 MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。 MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文参考訳（メタデータ） (2024-09-23T20:14:09Z)
The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines [6.381783966294295]
オープンソースの大規模言語モデル(LLM)により、開発者はプライバシやコンプライアンスといった側面をコントロールしながら、AIベースのソリューションを作成できる。我々は、vLLMとHuggingFaceのパイプラインという2つの推論ライブラリを使用して、20LLMのパフォーマンス、特にスループット(時間単位毎に生成されるトークン)を分析します。
論文参考訳（メタデータ） (2024-08-02T06:56:59Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models [26.2566707495948]
大規模言語モデル(LLM)は、学術と産業の両方で大きく進歩している。我々は,事前学習,微調整,LLMを異なるサイズで提供する場合のエンドツーエンド性能をベンチマークする。次に,LLMにおける計算処理や通信演算子など,サブモジュールの詳細なランタイム解析を行う。
論文参考訳（メタデータ） (2023-11-07T03:25:56Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。