Fugu-MT 論文翻訳(概要): Enhancing Inference Efficiency of Large Language Models: Investigating Optimization Strategies and Architectural Innovations

論文の概要: Enhancing Inference Efficiency of Large Language Models: Investigating Optimization Strategies and Architectural Innovations

arxiv url: http://arxiv.org/abs/2404.05741v1
Date: Tue, 2 Apr 2024 19:53:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-14 13:13:23.241554
Title: Enhancing Inference Efficiency of Large Language Models: Investigating Optimization Strategies and Architectural Innovations
Title（参考訳）: 大規模言語モデルの推論効率を高める:最適化戦略とアーキテクチャ革新を探る
Authors: Georgy Tyukin,
Abstract要約: この論文はモデル圧縮の手法を探求する。モデル圧縮の有効な方法として,トランスフォーマーLLMにおいて,後続の注意サブレイヤをスキップする簡単な手法を実証的に示す。その結果,Llama 2 7Bでは21%の高速化が見られた。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models are growing in size, and we expect them to continue to do so, as larger models train quicker. However, this increase in size will severely impact inference costs. Therefore model compression is important, to retain the performance of larger models, but with a reduced cost of running them. In this thesis we explore the methods of model compression, and we empirically demonstrate that the simple method of skipping latter attention sublayers in Transformer LLMs is an effective method of model compression, as these layers prove to be redundant, whilst also being incredibly computationally expensive. We observed a 21% speed increase in one-token generation for Llama 2 7B, whilst surprisingly and unexpectedly improving performance over several common benchmarks.
Abstract（参考訳）: 大きな言語モデルのサイズは拡大しています。しかし、このサイズの増加は推論コストに深刻な影響を及ぼす。したがって、モデル圧縮は、より大きなモデルの性能を維持するために重要であるが、それを実行するコストは削減されている。本稿では,モデル圧縮の手法を考察し,トランスフォーマーLLMにおける後続の注意サブレイヤをスキップする簡単な手法がモデル圧縮の有効な方法であることを示す。その結果,Llama 2 7Bでは21%の高速化が見られた。

関連論文リスト

Projected Compression: Trainable Projection for Efficient Transformer Compression [2.9812951075697325]
大規模言語モデルは、パフォーマンスを向上させるために、着実に拡大している。射影圧縮は、射影モジュールを利用することでモデル重量を減らす新しいモデル圧縮技術である。実験結果から, プロジェクテッド圧縮は, 高品質モデルにおいて, 同等のハードプルーニングおよびリトレーニング手法より優れることがわかった。
論文参考訳（メタデータ） (2025-06-27T14:24:01Z)
An Effective Training Framework for Light-Weight Automatic Speech Recognition Models [10.295690160466936]
一つの大モデルから複数の小さなモデルを生成することができる2段階の効率的な表現学習手法を提案する。提案手法は,単語誤り率を最大12.54%向上させる3倍の学習速度を実現する。
論文参考訳（メタデータ） (2025-05-22T17:55:09Z)
Towards Faster and More Compact Foundation Models for Molecular Property Prediction [44.64301507940171]
統合マルチドメイン事前学習(JMP)基盤モデルは、下流の様々なタスクに対して強い性能を示す。 JMPの利点にもかかわらず、小規模から大規模までの分子データセットを微調整するにはかなりの時間と計算資源が必要である。分子・材料発見のための軽量で高速でスケーラブルな基礎モデルを構築するための知見を提供する。
論文参考訳（メタデータ） (2025-04-28T07:41:03Z)
Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning [54.584665518334035]
注意と状態空間モデル(SSM)を組み合わせたハイブリッドアーキテクチャは、最先端の精度と実行時のパフォーマンスを達成する。近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
論文参考訳（メタデータ） (2025-04-15T17:26:29Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
Model Compression and Efficient Inference for Large Language Models: A Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文参考訳（メタデータ） (2024-02-15T06:58:30Z)
Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文参考訳（メタデータ） (2024-02-07T17:07:41Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Co-training and Co-distillation for Quality Improvement and Compression of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文参考訳（メタデータ） (2023-11-06T03:29:00Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Task-Agnostic Structured Pruning of Speech Representation Models [18.555223754089905]
性能劣化を補うための微粒なアテンションヘッドプルーニング法を提案する。 SUPERBベンチマーク実験により,複数のタスクで高密度モデルに匹敵する性能が得られた。
論文参考訳（メタデータ） (2023-06-02T09:11:06Z)
What do Compressed Large Language Models Forget? Robustness Challenges in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文参考訳（メタデータ） (2021-10-16T00:20:04Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。