Fugu-MT 論文翻訳(概要): Vidur: A Large-Scale Simulation Framework For LLM Inference

論文の概要: Vidur: A Large-Scale Simulation Framework For LLM Inference

arxiv url: http://arxiv.org/abs/2405.05465v2
Date: Tue, 21 May 2024 05:17:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 17:43:12.968153
Title: Vidur: A Large-Scale Simulation Framework For LLM Inference
Title（参考訳）: Vidur: LLM推論のための大規模シミュレーションフレームワーク
Authors: Amey Agrawal, Nitin Kedia, Jayashree Mohan, Ashish Panwar, Nipun Kwatra, Bhargav Gulavani, Ramachandran Ramjee, Alexey Tumanov,
Abstract要約: VidurはLLM推論性能のための大規模かつ高忠実なシミュレーションフレームワークである。 LLMデプロイメントの最適化を支援する構成検索ツールであるVidurSearchを紹介する。
参考スコア（独自算出の注目度）: 9.854130239429487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Optimizing the deployment of Large language models (LLMs) is expensive today since it requires experimentally running an application workload against an LLM implementation while exploring large configuration space formed by system knobs such as parallelization strategies, batching techniques, and scheduling policies. To address this challenge, we present Vidur - a large-scale, high-fidelity, easily-extensible simulation framework for LLM inference performance. Vidur models the performance of LLM operators using a combination of experimental profiling and predictive modeling, and evaluates the end-to-end inference performance for different workloads by estimating several metrics of interest such as latency and throughput. We validate the fidelity of Vidur on several LLMs and show that it estimates inference latency with less than 9% error across the range. Further, we present Vidur-Search, a configuration search tool that helps optimize LLM deployment. Vidur-Search uses Vidur to automatically identify the most cost-effective deployment configuration that meets application performance constraints. For example, Vidur-Search finds the best deployment configuration for LLaMA2-70B in one hour on a CPU machine, in contrast to a deployment-based exploration which would require 42K GPU hours - costing ~218K dollars. Source code for Vidur is available at https://github.com/microsoft/vidur.
Abstract（参考訳）: 大規模言語モデル(LLM)のデプロイの最適化は、並列化戦略やバッチ技術、スケジューリングポリシといったシステムノブによって形成される大きな設定スペースを探索しながら、LLM実装に対してアプリケーションのワークロードを実験的に実行する必要があるため、今日ではコストがかかる。この課題に対処するために,LLM推論性能のための大規模かつ高忠実で容易に拡張可能なシミュレーションフレームワークであるVidurを提案する。 Vidurは、実験的なプロファイリングと予測モデリングを組み合わせたLLM演算子のパフォーマンスをモデル化し、レイテンシやスループットなどのいくつかの指標を推定することにより、異なるワークロードに対するエンドツーエンドの推論性能を評価する。いくつかのLSM上でのVidurの忠実さを検証し、その範囲で9%未満の誤差で推論遅延を推定することを示した。さらに,LLMデプロイメントの最適化を支援する構成検索ツールであるVidur-Searchを紹介する。 Vidur-SearchはVidurを使用して、アプリケーションパフォーマンスの制約を満たす最もコスト効率の良いデプロイメント構成を自動的に識別する。例えば、Vidur-Searchは、CPUマシン上で1時間でLLaMA2-70Bをデプロイするのに最適な設定を見つける。 Vidurのソースコードはhttps://github.com/microsoft/vidur.comで入手できる。

関連論文リスト

Improving the End-to-End Efficiency of Offline Inference for Multi-LLM Applications Based on Sampling and Simulation [23.318601470116498]
単一ノードマルチGPU環境におけるマルチLLMアプリケーションのオフラインエンドツーエンド推論効率を改善することを目的としている。そこで本研究では,モデル実行時間を推定するためのサンプリング-then-simulation法を提案する。 3つのアプリケーションと混在アプリケーションの実験は、SamuLLMが1.0-2.4$times$ end-to-endのスピードアップを達成できることを示している。
論文参考訳（メタデータ） (2025-03-21T06:56:35Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
Capability Instruction Tuning: A New Paradigm for Dynamic LLM Routing [64.38277118982698]
LLM(Large Language Models)は、人間のような命令追従能力を示す。本研究では,各命令に対して最高の性能のLCMをルーティングして,全体的な性能を向上させる方法について検討する。提案手法は,モデル能力表現,ユーザ命令,性能調査プロンプトを用いて,性能評価を行う機能命令を新たに構築する。
論文参考訳（メタデータ） (2025-02-24T16:10:53Z)
Optimizing Model Selection for Compound AI Systems [76.69936664916061]
本稿では,複合システムにおけるモデル選択のための効率的なフレームワークを提案する。 1つのモジュールを反復的に選択し、最も高いモジュールレベルのパフォーマンスを持つモデルを割り当てます。すべてのモジュールで同じLLMを使用する場合と比較して、5%-70%の精度向上が期待できる。
論文参考訳（メタデータ） (2025-02-20T18:36:25Z)
Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文参考訳（メタデータ） (2025-02-20T09:59:50Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。最小限の設計により,本手法はビデオと画像の両方に応用できる。同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文参考訳（メタデータ） (2024-12-04T11:47:57Z)
Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。リクエストはサーバ上のジョブをスケジューリングする重要なステップです。リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文参考訳（メタデータ） (2024-12-03T03:16:12Z)
Revisited Large Language Model for Time Series Analysis through Modality Alignment [16.147350486106777]
大規模言語モデルは、センサデータ分析のような多くの重要なWebアプリケーションにおいて、印象的なパフォーマンスを示している。本研究では,予測,分類,計算,異常検出など,主要な時系列タスクにLLMを適用することの有効性を評価する。この結果から,LLMはこれらのコア時系列タスクに対して最小限のアドバンテージを提供し,データの時間構造を歪めてしまう可能性があることがわかった。
論文参考訳（メタデータ） (2024-10-16T07:47:31Z)
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文参考訳（メタデータ） (2024-10-10T17:59:22Z)
LLM-Pilot: Characterize and Optimize Performance of your LLM Inference Services [0.5143325455623888]
LLM-Pilot は LLM 推論サービスの性能を評価・予測するための第一種システムである。予測モデルを学び、これまで見つからなかったLCMのために最もコスト効率の良いハードウェアを推奨することができる。既存の方法と比較して、LLM-Pilotはパフォーマンス要件を33%頻繁に提供し、コストを平均60%削減できる。
論文参考訳（メタデータ） (2024-10-03T12:19:06Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency [20.33467627548677]
大規模言語モデル(LLM)は人気が高まり、商用アプリケーションで広く使われている。 LLMサービスシステムにおいて、エンドツーエンドのレイテンシに影響を及ぼす大きなボトルネックを特定するために、詳細な分析を行う。次に,資源効率の高いLLMサービスのための最適化システムであるScaleLLMを提案する。
論文参考訳（メタデータ） (2024-07-23T23:37:29Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models [26.2566707495948]
大規模言語モデル(LLM)は、学術と産業の両方で大きく進歩している。我々は,事前学習,微調整,LLMを異なるサイズで提供する場合のエンドツーエンド性能をベンチマークする。次に,LLMにおける計算処理や通信演算子など,サブモジュールの詳細なランタイム解析を行う。
論文参考訳（メタデータ） (2023-11-07T03:25:56Z)
SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。 SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文参考訳（メタデータ） (2023-10-01T17:59:20Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。