論文の概要: Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models
- arxiv url: http://arxiv.org/abs/2404.11502v1
- Date: Wed, 17 Apr 2024 15:57:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 13:16:00.102179
- Title: Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models
- Title(参考訳): 大規模言語モデルにおける推論効率の粗度評価に向けて
- Authors: Yushuo Chen, Tianyi Tang, Erge Xiang, Linjiang Li, Wayne Xin Zhao, Jing Wang, Yunpeng Chai, Ji-Rong Wen,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。
LLMの幅広い応用にとって、推論効率は重要な問題であり、既存の研究で広く研究されている。
各種コードライブラリの推論性能の粗大な解析を行う。
- 参考スコア(独自算出の注目度): 95.96734086126469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real world, large language models (LLMs) can serve as the assistant to help users accomplish their jobs, and also support the development of advanced applications. For the wide application of LLMs, the inference efficiency is an essential concern, which has been widely studied in existing work, and numerous optimization algorithms and code libraries have been proposed to improve it. Nonetheless, users still find it challenging to compare the effectiveness of all the above methods and understand the underlying mechanisms. In this work, we perform a detailed coarse-to-fine analysis of the inference performance of various code libraries. To evaluate the overall effectiveness, we examine four usage scenarios within two practical applications. We further provide both theoretical and empirical fine-grained analyses of each module in the Transformer architecture. Our experiments yield comprehensive results that are invaluable for researchers to evaluate code libraries and improve inference strategies.
- Abstract(参考訳): 現実世界では、大きな言語モデル(LLM)が、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。
LLMの幅広い応用において、推論効率は重要な問題であり、既存の研究で広く研究され、多くの最適化アルゴリズムやコードライブラリが提案されている。
それでも、上記のすべてのメソッドの有効性を比較し、基盤となるメカニズムを理解することは困難である。
本研究では,様々なコードライブラリの推論性能の粗大な解析を行う。
総合的な有効性を評価するために,2つの実用アプリケーション内での4つの利用シナリオについて検討する。
さらに、Transformerアーキテクチャにおける各モジュールの理論的および実証的なきめ細かい解析も提供する。
我々の実験は、研究者がコードライブラリを評価し、推論戦略を改善するのに貴重な総合的な結果をもたらす。
関連論文リスト
- Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - A Survey on Efficient Inference for Large Language Models [25.572035747669275]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。
LLM推論のかなりの計算とメモリ要件は、リソース制約のあるシナリオへの展開に困難をもたらす。
本稿では,LLMの効率的な推論について,既存の文献を包括的に調査する。
論文 参考訳(メタデータ) (2024-04-22T15:53:08Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - A Practical Survey on Zero-shot Prompt Design for In-context Learning [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクを大幅に改善した。
本稿では,異なる種類のプロンプトに着目した,コンテキスト内学習手法の総合的なレビューを行う。
本稿では,手動設計や最適化アルゴリズム,評価手法など,設計を促すための様々なアプローチについて検討する。
論文 参考訳(メタデータ) (2023-09-22T23:00:34Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - A Field Guide to Federated Optimization [161.3779046812383]
フェデレートされた学習と分析は、分散化されたデータからモデル(あるいは統計)を協調的に学習するための分散アプローチである。
本稿では、フェデレート最適化アルゴリズムの定式化、設計、評価、分析に関する勧告とガイドラインを提供する。
論文 参考訳(メタデータ) (2021-07-14T18:09:08Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。