論文の概要: Rethinking Layer Removal: Preserving Critical Components with Task-Aware Singular Value Decomposition
- arxiv url: http://arxiv.org/abs/2501.00339v1
- Date: Tue, 31 Dec 2024 08:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:35.772500
- Title: Rethinking Layer Removal: Preserving Critical Components with Task-Aware Singular Value Decomposition
- Title(参考訳): 層除去の再考:タスク対応特異値分解による臨界成分の保存
- Authors: Kainan Liu, Yong Zhang, Ning Cheng, Zhitao Li, Shaojun Wang, Jing Xiao,
- Abstract要約: Taco-SVDはタスククリティカルな特異値方向を保持するタスク認識フレームワークである。
勾配に基づく帰属法を利用して、Taco-SVDは特異値を下流タスクの目的と整合させる。
- 参考スコア(独自算出の注目度): 26.51079570548107
- License:
- Abstract: Layer removal has emerged as a promising approach for compressing large language models (LLMs) by leveraging redundancy within layers to reduce model size and accelerate inference. However, this technique often compromises internal consistency, leading to performance degradation and instability, with varying impacts across different model architectures. In this work, we propose Taco-SVD, a task-aware framework that retains task-critical singular value directions, preserving internal consistency while enabling efficient compression. Unlike direct layer removal, Taco-SVD preserves task-critical transformations to mitigate performance degradation. By leveraging gradient-based attribution methods, Taco-SVD aligns singular values with downstream task objectives. Extensive evaluations demonstrate that Taco-SVD outperforms existing methods in perplexity and task performance across different architectures while ensuring minimal computational overhead.
- Abstract(参考訳): モデルサイズを削減し、推論を加速するために、レイヤ内の冗長性を活用することで、大きな言語モデル(LLM)を圧縮するための有望なアプローチとして、層除去が登場した。
しかしながら、このテクニックは内部の一貫性を損なうことが多く、パフォーマンスの低下と不安定性をもたらし、異なるモデルアーキテクチャに様々な影響を与える。
本研究では,タスククリティカルな特異値方向を保持するタスク認識フレームワークであるTaco-SVDを提案する。
直接層除去とは異なり、Taco-SVDはタスククリティカルな変換を保持して性能劣化を緩和する。
勾配に基づく帰属法を利用して、Taco-SVDは特異値を下流タスクの目的と整合させる。
大規模な評価では、Taco-SVDは計算オーバーヘッドを最小限に抑えつつ、様々なアーキテクチャをまたいだパープレキシティやタスクパフォーマンスにおいて、既存の手法よりも優れていることが示されている。
関連論文リスト
- LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction [57.83978915843095]
本稿では,微分プライベート勾配の性能を著しく向上する新しいフレームワークであるDiSKを紹介する。
大規模トレーニングの実用性を確保するため,Kalmanフィルタプロセスを簡素化し,メモリと計算要求を最小化する。
論文 参考訳(メタデータ) (2024-10-04T19:30:39Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Multi-Scale Architectures Matter: On the Adversarial Robustness of
Flow-based Lossless Compression [16.109578069331135]
フローベースモデルは, 優れた確率密度推定と良好な推論速度により, 性能が向上する。
マルチスケールアーキテクチャは、浅い層から出力層へのショートカットを提供する。
マルチスケールアーキテクチャのフローは、コーディングの複雑さと圧縮効率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-08-26T15:17:43Z) - STD-NET: Search of Image Steganalytic Deep-learning Architecture via
Hierarchical Tensor Decomposition [40.997546601209145]
STD-NETは階層的テンソル分解による教師なしディープラーニングアーキテクチャ探索手法である。
提案手法は,従来のステガナティックネットワーク圧縮法に比べて効率が高く,冗長性も高い。
論文 参考訳(メタデータ) (2022-06-12T03:46:08Z) - STN: Scalable Tensorizing Networks via Structure-Aware Training and
Adaptive Compression [10.067082377396586]
本稿では,モデルサイズと分解構造を適応的に調整するスケーラビリティネットワーク(STN)を提案する。
STNは任意のネットワークアーキテクチャと互換性があり、他のテンソル化バージョンよりも高い圧縮性能と柔軟性を実現する。
論文 参考訳(メタデータ) (2022-05-30T15:50:48Z) - Neural TMDlayer: Modeling Instantaneous flow of features via SDE
Generators [37.92379202320938]
本稿では, 微分方程式(SDE)に基づくアイデアが, コンピュータビジョンの一連の問題に対して, 既存のアルゴリズムに新たな修正をもたらすかを検討する。
ショットラーニング,ポイントクラウドトランスフォーマー,深部変分セグメンテーションなど,多数のビジョンタスクについて有望な実験を行った。
論文 参考訳(メタデータ) (2021-08-19T19:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。