Fugu-MT 論文翻訳(概要): The LLM Surgeon

論文の概要: The LLM Surgeon

arxiv url: http://arxiv.org/abs/2312.17244v2
Date: Wed, 20 Mar 2024 20:21:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 19:17:37.231106
Title: The LLM Surgeon
Title（参考訳）: LLMサージオン
Authors: Tycho F. A. van der Ouderaa, Markus Nagel, Mart van Baalen, Yuki M. Asano, Tijmen Blankevoort,
Abstract要約: 我々は、スクラッチから小さなモデルをトレーニングする代替手段として、既存の事前訓練モデルのデータ駆動圧縮について検討する。我々は、非構造的、半構造的、構造的プルーニングのための一般的なフレームワークを提供し、重み間の相関性を高めるために、重み更新を改善する。提案手法では,OPTモデルとLlamav2-7Bの行と列を20%～30%削減できる。
参考スコア（独自算出の注目度）: 33.90611088414982
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-of-the-art language models are becoming increasingly large in an effort to achieve the highest performance on large corpora of available textual data. However, the sheer size of the Transformer architectures makes it difficult to deploy models within computational, environmental or device-specific constraints. We explore data-driven compression of existing pretrained models as an alternative to training smaller models from scratch. To do so, we scale Kronecker-factored curvature approximations of the target loss landscape to large language models. In doing so, we can compute both the dynamic allocation of structures that can be removed as well as updates of remaining weights that account for the removal. We provide a general framework for unstructured, semi-structured and structured pruning and improve upon weight updates to capture more correlations between weights, while remaining computationally efficient. Experimentally, our method can prune rows and columns from a range of OPT models and Llamav2-7B by 20%-30%, with a negligible loss in performance, and achieve state-of-the-art results in unstructured and semi-structured pruning of large language models.
Abstract（参考訳）: 現状の言語モデルは、利用可能なテキストデータの大規模なコーパス上で最高のパフォーマンスを達成するために、ますます大きくなってきている。しかし、Transformerアーキテクチャのかなりのサイズは、計算、環境、デバイス固有の制約の中でモデルをデプロイすることを困難にしている。我々は、スクラッチから小さなモデルをトレーニングする代替手段として、既存の事前訓練モデルのデータ駆動圧縮について検討する。そこで我々は Kronecker による目標損失景観の曲率近似を大規模言語モデルに拡張する。そうすることで、取り除くことができる構造の動的割り当てと、取り除くための残りの重みの更新の両方を計算できます。我々は,非構造的,半構造的,構造的プルーニングのための一般的なフレームワークを提供し,重み間の相関性を高めつつ,計算効率を向上する。実験により,OPTモデルとLlamav2-7Bから行や列を20%～30%の精度で抽出し,非構造化および半構造化された大規模言語モデルにおける最先端の結果を得ることができた。

関連論文リスト

Architectural Trade-offs in Small Language Models Under Compute Constraints [0.0]
本稿では,厳密な計算制約下での小型言語モデルの体系的研究を行う。我々は,Tny Shakespeare の文字レベルモデリングと Penn Treebank (PTB) とWikiText-2 の単語レベルモデリングについて検討した。この結果から,注目モデルがFLOP毎の効率を小型でも上回る一方で,深度や文脈の増大が性能を低下させる可能性が示唆された。
論文参考訳（メタデータ） (2025-12-24T01:36:50Z)
Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文参考訳（メタデータ） (2025-10-20T16:15:03Z)
Scaling Laws for Upcycling Mixture-of-Experts Language Models [17.796361238003403]
大規模言語モデル(LLM)の事前トレーニングはリソース集約的であり、ハイエンドのGPUクラスタでも数ヶ月のトレーニング時間を必要とすることが多い。そのような計算要求を緩和する2つのアプローチがある: より小さなモデルを再利用して、より大きなモデルをトレーニングする(アップサイクル)、そして、Mix-of-experts (MoE)のような計算効率の良いモデルを訓練する。
論文参考訳（メタデータ） (2025-02-05T09:11:13Z)
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文参考訳（メタデータ） (2024-11-21T12:02:39Z)
TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文参考訳（メタデータ） (2024-06-25T04:01:32Z)
LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文参考訳（メタデータ） (2024-02-17T04:16:30Z)
Reusing Pretrained Models by Multi-linear Operators for Efficient Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。 bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文参考訳（メタデータ） (2023-10-16T06:16:47Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文参考訳（メタデータ） (2023-09-14T08:07:49Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2021-06-10T15:41:53Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)
Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文参考訳（メタデータ） (2020-01-23T03:59:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。