論文の概要: Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.09834v1
- Date: Wed, 13 Aug 2025 14:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.923811
- Title: Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
- Title(参考訳): Speed Alwaysが勝利: 大規模言語モデルの効率的なアーキテクチャに関する調査
- Authors: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng,
- Abstract要約: 大規模言語モデル(LLM)は、言語理解、生成、推論、マルチモーダルモデルの能力境界の押し付けにおいて、素晴らしい結果をもたらしている。
トランスフォーマーモデルは、現代のLLMの基礎として、優れたスケーリング特性を備えた強力なベースラインを提供する。
従来のトランスフォーマーアーキテクチャは、相当な計算を必要とし、大規模なトレーニングと実践的なデプロイメントに重大な障害を生じさせる。
- 参考スコア(独自算出の注目度): 51.817121227562964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have delivered impressive results in language understanding, generation, reasoning, and pushes the ability boundary of multimodal models. Transformer models, as the foundation of modern LLMs, offer a strong baseline with excellent scaling properties. However, the traditional transformer architecture requires substantial computations and poses significant obstacles for large-scale training and practical deployment. In this survey, we offer a systematic examination of innovative LLM architectures that address the inherent limitations of transformers and boost the efficiency. Starting from language modeling, this survey covers the background and technical details of linear and sparse sequence modeling methods, efficient full attention variants, sparse mixture-of-experts, hybrid model architectures incorporating the above techniques, and emerging diffusion LLMs. Additionally, we discuss applications of these techniques to other modalities and consider their wider implications for developing scalable, resource-aware foundation models. By grouping recent studies into the above category, this survey presents a blueprint of modern efficient LLM architectures, and we hope this could help motivate future research toward more efficient, versatile AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語理解、生成、推論、マルチモーダルモデルの能力境界の押し付けにおいて、素晴らしい結果をもたらしている。
トランスフォーマーモデルは、現代のLLMの基礎として、優れたスケーリング特性を備えた強力なベースラインを提供する。
しかし、従来のトランスフォーマーアーキテクチャは相当な計算を必要とするため、大規模なトレーニングや実践的な展開には大きな障害となる。
本調査では, 変圧器固有の限界に対処し, 効率を向上する, 革新的なLCMアーキテクチャを体系的に検討する。
言語モデリングから始めて、線形およびスパースシーケンスモデリング手法の背景と技術的詳細、効率的なフルアテンション変種、スパース・オブ・サート、上記の手法を取り入れたハイブリッドモデルアーキテクチャ、および新たな拡散LLMについて述べる。
さらに、これらの手法を他のモダリティに適用することについて議論し、スケーラブルでリソースを意識した基盤モデルを開発する上で、より広範な意味について考察する。
最近の研究を上記のカテゴリにまとめることで、この調査は現代の効率的なLLMアーキテクチャの青写真を示し、これがより効率的で汎用的なAIシステムに向けた将来の研究の動機になることを期待している。
関連論文リスト
- Mixture of Experts in Large Language Models [3.1494372222592224]
MoEアーキテクチャは、最小の計算オーバーヘッドを維持しながら、モデルパフォーマンスを大幅に向上させる。
本分析では,モデルキャパシティの向上,タスク固有性能の向上,モデルキャパシティの効率向上など,MoEの重要なメリットを明らかにした。
このレビューでは、現在の研究の制限、オープンな課題、将来的な方向性について概説し、MoEアーキテクチャとそのアプリケーションにおける継続的なイノベーションの基礎を提供する。
論文 参考訳(メタデータ) (2025-07-15T10:36:43Z) - Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
モデルにMixture of Experts(MoEs)を組み込むことで、モデルがモダリティ固有の重みを学習し、性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Low-Rank Adapters Meet Neural Architecture Search for LLM Compression [1.8434042562191815]
LLM(Large Language Models)の急速な拡張は、微調整と展開に必要な計算資源に関して重大な課題を提起している。
低ランクアダプタの最近の進歩は、これらのモデルのパラメータ効率のよい微調整(PEFT)において有効であることを示した。
本稿では,低ランク表現をニューラルアーキテクチャサーチ(NAS)技術と相乗化するための革新的なアプローチを包括的に論じる。
論文 参考訳(メタデータ) (2025-01-23T02:14:08Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Designing Large Foundation Models for Efficient Training and Inference: A Survey [35.40505841618305]
本稿では,基礎モデルに基づく現代的効率的なトレーニングと推論技術に焦点を当てる。
モデルとシステムデザイン 計算資源を節約するために、異なる側面からのLLMトレーニングと推論を最適化する。
論文 参考訳(メタデータ) (2024-09-03T15:35:01Z) - A Survey of Resource-efficient LLM and Multimodal Foundation Models [22.23967603206849]
大規模言語モデル(LLM)、ビジョントランスフォーマー(ViT)、拡散、マルチモーダルモデルを含む大規模な基盤モデルは、機械学習ライフサイクル全体に革命をもたらしている。
しかしながら、これらのモデルが提供する汎用性と性能の大幅な進歩は、ハードウェアリソースの面でかなりのコストがかかる。
この調査は、アルゴリズム的側面とシステム的側面の両方を調べることで、そのような研究の重要さを掘り下げるものである。
論文 参考訳(メタデータ) (2024-01-16T03:35:26Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。