論文の概要: Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
- arxiv url: http://arxiv.org/abs/2605.07985v1
- Date: Fri, 08 May 2026 16:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.211785
- Title: Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation
- Title(参考訳): Dooly: LLM推論シミュレーションのための構成非依存,冗長性認識プロファイリング
- Authors: Joon Ha Kim, Geon-Woo Kim, Anoop Rachakonda, Daehyeok Kim,
- Abstract要約: プロファイルベースのシミュレータは標準的なツールだが、特定の設定に設定した操作をハードコードし、スクラッチからすべての操作を再認識する。
それぞれの操作の入力次元はモデル構成によって固定されるか、受信要求によって決定される。
構成に依存しない冗長性を考慮したプロファイリングを実現するために,この構造を利用するDoolyを提案する。
- 参考スコア(独自算出の注目度): 7.365191900032772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting the optimal LLM inference configuration requires evaluation across hardware, serving engines, attention backends, and model architectures, since no single choice performs best across all workloads. Profile-based simulators are the standard tool, yet they hardcode their operation set to a specific configuration and re-profile every operation from scratch, making exploration prohibitively expensive. This cost stems from a missing structural understanding: every input dimension of each operation is fixed by the model configuration or determined by the incoming request. Many model-configuration values (e.g., head size, layer count) recur across models, so the same operation runs in many configurations; a single sweep over the request-dependent dimensions can serve them all. We present Dooly, which exploits this structure to achieve configuration-agnostic, redundancy-aware profiling. Dooly performs a single inference pass, labels each input dimension with its origin via taint propagation, and selectively profiles only operations absent from its latency database; stateful operations such as attention are isolated by reusing the serving engine's own initialization code, eliminating manual instrumentation. It builds latency regression models based on the database, which becomes a drop-in backend for existing simulators. Across two GPU platforms, three attention backends, and diverse model architectures, Dooly achieves simulation accuracy within 5% MAPE for TTFT and 8% for TPOT while reducing profiling GPU-hours by 56.4% across 12 models compared to the existing profiling approach.
- Abstract(参考訳): 最適なLCM推論設定を選択するには、ハードウェア、サーブエンジン、アテンションバックエンド、モデルアーキテクチャをまたがって評価する必要がある。
プロファイルベースのシミュレーターは標準的なツールであるが、特定の設定に設定された操作をハードコードし、スクラッチからすべての操作が再認識されるため、探索は極めて高価である。
それぞれの操作の入力次元はモデル構成によって固定されるか、受信要求によって決定される。
多くのモデル構成値(例えば、ヘッドサイズ、レイヤ数)がモデル間で再帰するので、同じ操作は多くの構成で動作します。
構成に依存しない冗長性を考慮したプロファイリングを実現するために,この構造を利用するDoolyを提案する。
Doolyは単一の推論パスを実行し、テント伝搬によって各入力次元をその起源にラベル付けし、遅延データベースから欠落した操作のみを選択的にプロファイルする。
データベースに基づいた遅延回帰モデルを構築し、既存のシミュレーターのバックエンドをドロップインする。
2つのGPUプラットフォーム、3つのアテンションバックエンド、多様なモデルアーキテクチャにわたって、Doolyは、既存のプロファイリングアプローチと比較して、12モデルで、GPU時間のプロファイリング時間を56.4%削減しながら、TTFTで5% MAPE、TPOTで8%のシミュレーション精度を達成している。
関連論文リスト
- OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。
トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。
エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T07:50:00Z) - AIConfigurator: Lightning-Fast Configuration Optimization for Multi-Framework LLM Serving [16.664502126572856]
AIConfiguratorは、Large Language Model(LLM)推論のための統一されたパフォーマンスモデリングシステムである。
GPUベースのプロファイリングを必要とせずに、迅速なフレームワークベースの構成検索を可能にする。
これは、高密度モデルのパフォーマンスを最大40%向上させる優れたサービス構成を特定する。
論文 参考訳(メタデータ) (2026-01-09T20:03:57Z) - MPRU: Modular Projection-Redistribution Unlearning as Output Filter for Classification Pipelines [23.370444162993707]
本稿では,機械アンラーニング(MU)へのインセンティブ的アプローチを提案する。
学習は、最後のトレーニングシーケンスを逆転させることで行うことができる。これは、モデルの最後にプロジェクション-再配布層を追加することで実装される。
実験結果から,計算コストの低減を図った完全再学習モデルと一貫した出力が得られた。
論文 参考訳(メタデータ) (2025-10-30T08:09:37Z) - AI for Distributed Systems Design: Scalable Cloud Optimization Through Repeated LLMs Sampling And Simulators [3.1594665317979698]
大規模言語モデルからのコード生成と決定論的検証をドメイン固有シミュレータで組み合わせ,AI駆動型分散システムポリシー設計について検討する。
複数のモデル間のスループット改善に関する予備的な結果を報告する。
我々は、AIが新しいシミュレータのブートストラップを支援することで、この方法論のスケールアップに不可欠であると推測する。
論文 参考訳(メタデータ) (2025-10-20T16:10:24Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - SLOT: Structuring the Output of Large Language Models [5.683327173793259]
SLOT(Structured LLM Output Transformer)は,非構造化LCM出力を正確な構造化形式に変換するモデルに依存しない手法である。
この結果から,制約付き復号化による微調整Mistral-7Bモデルでは,ほぼ完全なスキーマ精度が得られた。
特に、Llama-3.2-1Bのようなコンパクトなモデルでさえ、はるかに大きなプロプライエタリなモデルの出力能力にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-05-06T23:29:43Z) - LLMs for Cold-Start Cutting Plane Separator Configuration [15.48177941218929]
混合整数線形プログラミングソルバは、性能に大きな影響を与える数百のパラメータを公開する。
既存の機械学習アプローチでは、数千の関連するインスタンスをトレーニングする必要がある。
本稿では,問題記述と解決者固有の要約を用いて切削平面分離器を構成する,大規模言語モデル(LLM)に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-16T18:03:57Z) - Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors [44.5740422079]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。
先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文 参考訳(メタデータ) (2023-10-04T17:17:06Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。