Fugu-MT 論文翻訳(概要): Large Language Models Are Overparameterized Text Encoders

論文の概要: Large Language Models Are Overparameterized Text Encoders

arxiv url: http://arxiv.org/abs/2410.14578v1
Date: Fri, 18 Oct 2024 16:26:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.540478
Title: Large Language Models Are Overparameterized Text Encoders
Title（参考訳）: 大規模言語モデルは過度にパラメータ化されたテキストエンコーダである
Authors: Thennal D K, Tim Fischer, Chris Biemann,
Abstract要約: 大規模言語モデル(LLM)は、教師付きコントラスト訓練で微調整されたテキスト埋め込みモデルとして高い性能を示す。我々は,LLMの最後の$p%のレイヤーを1000ステップの指導訓練前に刈り取ることで,メモリと推論時間の比例的に削減できることを示す。
参考スコア（独自算出の注目度）: 17.608805125623803
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) demonstrate strong performance as text embedding models when finetuned with supervised contrastive training. However, their large size balloons inference time and memory requirements. In this paper, we show that by pruning the last $p\%$ layers of an LLM before supervised training for only 1000 steps, we can achieve a proportional reduction in memory and inference time. We evaluate four different state-of-the-art LLMs on text embedding tasks and find that our method can prune up to 30\% of layers with negligible impact on performance and up to 80\% with only a modest drop. With only three lines of code, our method is easily implemented in any pipeline for transforming LLMs to text encoders. We also propose $\text{L}^3 \text{Prune}$, a novel layer-pruning strategy based on the model's initial loss that provides two optimal pruning configurations: a large variant with negligible performance loss and a small variant for resource-constrained settings. On average, the large variant prunes 21\% of the parameters with a $-0.3$ performance drop, and the small variant only suffers from a $-5.1$ decrease while pruning 74\% of the model. We consider these results strong evidence that LLMs are overparameterized for text embedding tasks, and can be easily pruned.
Abstract（参考訳）: 大規模言語モデル(LLM)は、教師付きコントラスト訓練で微調整されたテキスト埋め込みモデルとして高い性能を示す。しかし、その大きなバルーンは時間とメモリの要求を推測する。本稿では,LLMの最後の$p\%のレイヤーを1000ステップの指導訓練前に刈り取ることで,メモリと推論時間の比例的に削減できることを示す。テキスト埋め込みタスクにおいて、4つの異なる最先端LCMを評価し、本手法は、性能に無視されることなく最大30 %のレイヤーを産み出すことができ、最小のドロップで最大80 %までを産み出すことができることを示した。 3行のコードだけで、LLMをテキストエンコーダに変換するパイプラインで簡単に実装できる。また、モデルの初期損失に基づく新しい層分割戦略である $\text{L}^3 \text{Prune}$ も提案する。平均すると、大きな変種はパラメータの21\%を$-0.3$性能低下させ、小さな変種はモデルの74\%を刈り取っている間、わずか5.1$の減少に悩まされる。これらの結果から,LLMはテキスト埋め込み作業において過度にパラメータ化され,容易に刈り取られることを示す。

関連論文リスト

Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency [26.173523821684306]
トークン配置対応層スキップフレームワークを提案し,性能を維持しつつ1.5倍の演算を効率よく節約する。 7 sim 70$のパラメータを持つ大規模言語モデルの実験では、D3$は完全な推論パイプラインと比較して平均1.5倍のスピードアップを達成することができる。
論文参考訳（メタデータ） (2025-03-11T15:15:54Z)
Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文参考訳（メタデータ） (2025-02-20T09:59:50Z)
Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文参考訳（メタデータ） (2024-11-23T13:31:16Z)
Reasoning Robustness of LLMs to Adversarial Typographical Errors [49.99118660264703]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)プロンプトを使用した推論において、印象的な機能を示している。本研究では,LLMのタイポグラフィ的誤りに対するロバスト性について検討する。我々は,クエリに重要な単語の型を反復的にサンプリングし,攻撃に成功しそうな編集を選択する,Adversarial Typo Attack(texttATA$)アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-11-08T05:54:05Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。 G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文参考訳（メタデータ） (2024-05-24T08:00:00Z)
BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。 SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文参考訳（メタデータ） (2024-02-18T12:44:15Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
AMOM: Adaptive Masking over Masking for Conditional Masked Language Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文参考訳（メタデータ） (2023-03-13T20:34:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。