論文の概要: IteRABRe: Iterative Recovery-Aided Block Reduction
- arxiv url: http://arxiv.org/abs/2503.06291v1
- Date: Sat, 08 Mar 2025 17:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:03.642332
- Title: IteRABRe: Iterative Recovery-Aided Block Reduction
- Title(参考訳): IteRABRe: 反復的回復支援ブロック削減
- Authors: Haryo Akbarianto Wibowo, Haiyue Song, Hideki Tanaka, Masao Utiyama, Alham Fikri Aji, Raj Dabre,
- Abstract要約: IteRABReは、計算資源を最小限に抑えつつ、優れた圧縮結果を達成する、単純で効果的な反復的プルーニング手法である。
IteRABReは言語能力の保存において特に強みを示し、言語関連タスクのベースラインよりも5%改善している。
- 参考スコア(独自算出の注目度): 36.37457533156018
- License:
- Abstract: Large Language Models (LLMs) have grown increasingly expensive to deploy, driving the need for effective model compression techniques. While block pruning offers a straightforward approach to reducing model size, existing methods often struggle to maintain performance or require substantial computational resources for recovery. We present IteRABRe, a simple yet effective iterative pruning method that achieves superior compression results while requiring minimal computational resources. Using only 2.5M tokens for recovery, our method outperforms baseline approaches by ~3% on average when compressing the Llama3.1-8B and Qwen2.5-7B models. IteRABRe demonstrates particular strength in the preservation of linguistic capabilities, showing an improvement 5% over the baselines in language-related tasks. Our analysis reveals distinct pruning characteristics between these models, while also demonstrating preservation of multilingual capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)のデプロイはますます高価になり、効果的なモデル圧縮技術の必要性が高まっている。
ブロックプルーニングはモデルサイズを減らすための簡単なアプローチを提供するが、既存の手法は性能を維持するのに苦労したり、回復のためにかなりの計算資源を必要とする場合が多い。
計算資源を最小限に抑えつつ,優れた圧縮結果が得られる簡易かつ効果的な反復刈り法であるIteRABReを提案する。
Llama3.1-8B モデルと Qwen2.5-7B モデルを圧縮した場合, 回収に 2.5M トークンのみを用いることで, ベースラインアプローチを平均で 3% 向上させる。
IteRABReは言語能力の保存において特に強みを示し、言語関連タスクのベースラインよりも5%改善している。
本分析では,これらのモデル間で異なるプルーニング特性を示すとともに,多言語機能の保存性を示す。
関連論文リスト
- You Only Prune Once: Designing Calibration-Free Model Compression With Policy Learning [20.62274005080048]
PruneNetは、ポリシー学習プロセスとしてモデルプルーニングを再構成する新しいモデル圧縮手法である。
LLaMA-2-7Bモデルはわずか15分で圧縮でき、ゼロショット性能の80%以上を維持できる。
複雑なマルチタスク言語理解タスクでは、PruneNetはオリジナルのモデルの80%のパフォーマンスを維持することで、その堅牢性を実証している。
論文 参考訳(メタデータ) (2025-01-25T18:26:39Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization [17.190984773586745]
現在のARベースのビジュアル生成モデルは、リソース制約のあるデバイスに適用性を制限するために、かなりの計算資源を必要とする。
性能を維持しつつ,VARモデルの効率を向上させるために,効率的な注意機構と低ビット量子化手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T07:32:36Z) - DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - KVPruner: Structural Pruning for Faster and Memory-Efficient Large Language Models [6.919270710497231]
性能を維持しながらモデル効率を向上させるため,KVPrunerを提案する。
オリジナルのモデルと比較して、KVPrunerはランタイムメモリ使用量を50%削減し、スループットを35%以上向上させた。
論文 参考訳(メタデータ) (2024-09-17T10:35:30Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token [108.7069350303884]
xRAGは、検索拡張生成に適した、革新的なコンテキスト圧縮手法である。
xRAGは、言語モデル表現空間に文書の埋め込みをシームレスに統合する。
実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を達成していることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:15:17Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。