論文の概要: Enabling Performant and Flexible Model-Internal Observability for LLM Inference
- arxiv url: http://arxiv.org/abs/2605.11093v1
- Date: Mon, 11 May 2026 18:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.34459
- Title: Enabling Performant and Flexible Model-Internal Observability for LLM Inference
- Title(参考訳): LLM推論のための高性能・フレキシブルモデル内可観測性の実現
- Authors: Nengneng Yu, Sixian Xiong, Yibo Zhao, Wei Wang, Zaoxing Liu,
- Abstract要約: DMI-Libは、内部オブザーバビリティをファーストクラスのシステムプリミティブとして扱う高速なディープモデルインスペクタである。
DMI-Libはオフラインのバッチ推論でわずか0.4%~6.8%のオーバーヘッドしか発生せず、オンラインの適度なサービスでは平均6%である。
- 参考スコア(独自算出の注目度): 6.153611368890026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's inference-time workloads increasingly depend on timely access to a model's internal states. We present DMI-Lib, a high-speed deep model inspector that treats internal observability as a first-class systems primitive, decoupling it from the inference hot path via an asynchronous observability substrate built from Ring^2, a GPU-CPU memory abstraction for capturing and staging tensors, and a policy-controlled host backend that exports them. DMI-Lib enables the placement of observation points across a rich space of internal signals and diverse inference backends while preserving serving optimizations and adhering to tight GPU memory budgets. Our experiments demonstrate that DMI-Lib incurs only 0.4%--6.8% overhead in offline batch inference and an average of 6% in moderate online serving, reducing latency overhead by 2x-15x compared to existing baselines with similar observability features. DMI-Lib is open-sourced at https://github.com/ProjectDMX/DMI.
- Abstract(参考訳): 今日の推論時のワークロードは、モデルの内部状態へのタイムリーなアクセスにますます依存しています。
本稿では、内部可観測性を第一級システムプリミティブとして扱う高速ディープモデルインスペクタであるDMI-Libについて、Ring^2から構築された非同期可観測性基板とテンソルのキャプチャとステージングのためのGPU-CPUメモリ抽象化と、それらをエクスポートするポリシー制御ホストバックエンドを用いて、推論ホットパスから分離する。
DMI-Libは、内部信号の豊富なスペースと多様な推論バックエンドをまたいだ監視ポイントの配置を可能にし、最適化を提供し、GPUメモリ予算を厳格に維持する。
我々の実験によると、DMI-Libはオフラインのバッチ推論でわずか0.4%~6.8%のオーバーヘッドしか発生せず、中程度のオンラインサービスでは平均6%しか発生しない。
DMI-Libはhttps://github.com/ProjectDMX/DMIでオープンソース化されている。
関連論文リスト
- Vision-Language Models on the Edge for Real-Time Robotic Perception [0.22940141855172028]
6G内のエッジインテリジェンス、特にOpen RANとMulti- Access Edge Computingは、これらの課題に対処するための経路を提供する。
本研究は,Unitree G1ヒューマノイドロボットを具現化したテストベッドとして,ORAN/MECインフラストラクチャ上でのビジョンランゲージモデルの展開について検討する。
その結果,エッジデプロイメントはクラウドに近い精度を保ちながら,エンドツーエンドのレイテンシを5%削減できることがわかった。
論文 参考訳(メタデータ) (2026-01-21T12:09:48Z) - Bare-Metal Tensor Virtualization: Overcoming the Memory Wall in Edge-AI Inference on ARM64 [0.5729426778193398]
ARM64マイクロアーキテクチャ(Apple Silicon)向けに最適化されたソフトウェアで実装された"仮想コア"アーキテクチャ
DMA(Software-Defined Direct Memory Access)は、100%キャッシュラインの利用をウェイトで保証しますが、ゼロコピーローダは遅延を排除します。
110M秒モデルによる実験結果から,M2ハードウェア上では, >60トークン/秒の安定したスループットが示された。
論文 参考訳(メタデータ) (2026-01-06T15:00:40Z) - Tiny, On-Device Decision Makers with the MiniConv Library [0.0]
強化学習(RL)は大きな成果を上げているが、リソース制約されたエッジデバイスに視覚ポリシーをデプロイすることは依然として困難である。
本稿では,小さなオンデバイスエンコーダが各観測結果をリモートポリシヘッドに送信するコンパクトな特徴テンソルに変換する分割政治アーキテクチャを提案する。
我々は,NVIDIA Jetson Nano,Raspberry Pi 4B,Raspberry Pi Zero 2 Wを対象とし,学習結果の報告,持続負荷下でのデバイス上での実行動作,帯域幅形成時のエンドツーエンド決定レイテンシとスケーラビリティの測定を行った。
論文 参考訳(メタデータ) (2025-12-17T00:53:30Z) - AutoSAGE: Input-Aware CUDA Scheduling for Sparse GNN Aggregation (SpMM/SDDMM) and CSR Attention [52.20940151628735]
AutoSAGEは入力ごとにタイリングとマッピングを選択するインプット対応スケジューラである。
Reddit OGBN-Productsでは、カーネルレベルの最大4.7倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-11-17T18:25:51Z) - dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - lm-Meter: Unveiling Runtime Inference Latency for On-Device Language Models [7.524517279167586]
大きな言語モデル(LLM)は、日々のアプリケーションにますます統合されています。
モバイルおよびエッジデバイス(オンデバイスLDM)でLLMをローカルに実行することは、プライバシー、信頼性、通信コストの削減を約束する。
オンデバイスLSM推論に適した,最初の軽量オンライン遅延プロファイラであるlm-Meterを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:05:30Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文 参考訳(メタデータ) (2024-10-01T09:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。