Fugu-MT 論文翻訳(概要): Efficient Large Foundation Model Inference: A Perspective From Model and System Co-Design

論文の概要: Efficient Large Foundation Model Inference: A Perspective From Model and System Co-Design

arxiv url: http://arxiv.org/abs/2409.01990v2
Date: Wed, 11 Dec 2024 11:39:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.380137
Title: Efficient Large Foundation Model Inference: A Perspective From Model and System Co-Design
Title（参考訳）: モデルとシステム共設計による大規模モデル推論の効率化
Authors: Dong Liu, Zhixin Lai, Yite Wang, Jing Wu, Yanxuan Yu, Zhongwei Wan, Benjamin Lengerich, Ying Nian Wu,
Abstract要約: 大規模言語モデル(LLM)が普及し,LLM上でのMLモデルの効率的な設計の必要性が高まっている。本稿では,LLMの効率的な推論技術に焦点をあて,モデルとシステム設計という2つの視点から解説する。
参考スコア（独自算出の注目度）: 35.40505841618305
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As Large Language Models (LLMs) become popular, the need for efficient design for ML models on LLMs grows. We are amazed by the excellent output by the LLMs, yet we are still troubled with slow inference speed and large memory consumption of contemporary LLMs. This paper focuses on modern efficient inference technologies on LLMs and illustrates them from two perspectives: model and system design. These methodologies optimize LLM inference from different aspects to save computational resources, making LLMs more efficient, affordable, and more accessible.
Abstract（参考訳）: LLM(Large Language Models)が普及するにつれて、LLM上でのMLモデルの効率的な設計の必要性が高まっている。我々はLLMによる優れた出力に驚いているが、現在のLLMの低速な推論速度とメモリ消費に悩まされている。本稿では,LLMの効率的な推論技術に焦点をあて,モデルとシステム設計という2つの視点から解説する。これらの手法は計算資源の節約のために異なる側面からのLLM推論を最適化し、LLMをより効率的で安価でアクセスしやすいものにする。

関連論文リスト

Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文参考訳（メタデータ） (2025-04-02T20:33:27Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud [12.651588927599441]
モデル微調整の効率を大幅に向上するために,データ拡張モデル群を提案する。これらのモデルは十分に小さなLLMに基づいて訓練され、推論コストの低い重要な機能をサポートする。実験と応用研究は、我々のアプローチの有効性を証明した。
論文参考訳（メタデータ） (2024-12-06T09:04:12Z)
eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文参考訳（メタデータ） (2024-11-24T22:50:02Z)
AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。 AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文参考訳（メタデータ） (2024-11-15T22:02:28Z)
A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文参考訳（メタデータ） (2024-10-25T23:52:28Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms [34.818641985348805]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。しかし、高価なメモリと計算の要求は、その実践的な展開に重大な課題をもたらしている。低ビット量子化は、モデルパラメータのビット幅を減らすことでこれらの課題を緩和するための重要なアプローチとして現れている。
論文参考訳（メタデータ） (2024-09-25T07:38:02Z)
Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めたモデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文参考訳（メタデータ） (2024-09-07T13:57:41Z)
Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models? [18.990655668481075]
我々は,最後の層だけでなく,すべての隠蔽層の出力を横断的ネットワークを用いて変換する,新しいプーリング戦略であるMulti-Layers Trainable Poolingを提案する。本稿では,LLMをベースとした埋め込みモデルの効果的なトレーニング戦略について述べる。
論文参考訳（メタデータ） (2024-09-04T14:01:48Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
New Solutions on LLM Acceleration, Optimization, and Application [14.995654657013741]
大規模言語モデル (LLM) は、様々な応用において人間のような文章を解釈・生成する能力を持つ非常に強力な機器となっている。しかし、LLMのサイズと複雑さの増大は、トレーニングとデプロイメントの両方において大きな課題をもたらしている。これらの課題に対処するための最近の進歩と研究の方向性について概観する。
論文参考訳（メタデータ） (2024-06-16T11:56:50Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Understanding LLMs: A Comprehensive Overview from Training to Inference [52.70748499554532]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文参考訳（メタデータ） (2024-01-04T02:43:57Z)
The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文参考訳（メタデータ） (2023-12-01T16:00:25Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
A Survey on Model Compression for Large Language Models [21.768293256849113]
大規模言語モデル(LLM)は自然言語処理タスクをうまく変換した。しかし、その大きなサイズと高い計算要求は、実用上の課題を提起する。モデル圧縮はこれらの課題に対処するための重要な研究領域として浮上している。
論文参考訳（メタデータ） (2023-08-15T08:31:05Z)
Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文参考訳（メタデータ） (2023-04-05T07:28:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。