論文の概要: Locality-Aware Redundancy Pruning for LLM Depth Compression
- arxiv url: http://arxiv.org/abs/2605.27786v1
- Date: Wed, 27 May 2026 00:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.616572
- Title: Locality-Aware Redundancy Pruning for LLM Depth Compression
- Title(参考訳): LLM深度圧縮のための局所性を考慮した冗長処理
- Authors: Vincent-Daniel Yun, Youngrae Kim, Woosang Lim, YoungJin Heo, Minkyu Kim, Sunwoo Lee,
- Abstract要約: 表現の局所性によってガイドされるトレーニングフリーのワンショット深度プレーニングフレームワークを提案する。
階層間冗長性はアーキテクチャによって局所化またはグローバルに分散可能であることを示す。
多様なLLMファミリーを対象とした実験では、パープレキシティと下流タスクの精度の改善が示されている。
- 参考スコア(独自算出の注目度): 6.052194197353533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are known to contain representational redundancy across network depth, making depth pruning an effective approach for improving inference efficiency. Existing one-shot pruning methods rely on local layer importance or fixed redundancy assumptions across architectures. We propose Locality-Aware Redundancy Pruning (LoRP), a training-free one-shot depth pruning framework guided by representation locality. We show that inter-layer redundancy can be either localized or globally distributed depending on the LLM architecture. To characterize this phenomenon, we introduce Representation Locality Score (RLS), derived from global inter-layer hidden-state similarity. Using a small calibration set, LoRP computes pairwise layer similarity, clusters layers by representational similarity, and allocates pruning according to residual intra-cluster redundancy. Experiments across diverse LLM families show improvements in both perplexity and downstream task accuracy.
- Abstract(参考訳): 大規模言語モデルは、ネットワーク深度をまたいだ表現冗長性を含むことが知られており、推論効率を向上させる効果的なアプローチとなっている。
既存のワンショットプルーニング手法は、アーキテクチャ全体にわたる局所的なレイヤの重要性や固定冗長性の仮定に依存している。
表現局所性によって誘導される訓練不要なワンショット深度プレーニングフレームワークであるLoRPを提案する。
層間冗長性はLLMアーキテクチャによって局所化可能か,あるいはグローバルに分散可能であることを示す。
この現象を特徴付けるために、グローバルな層間隠れ状態類似性から派生したRepresentation Locality Score(RLS)を導入する。
小さなキャリブレーションセットを使用して、LoRPはペアワイズ層、クラスタ層を表現的類似度で計算し、クラスタ内の残留冗長度に応じてプルーニングを割り当てる。
多様なLLMファミリーを対象とした実験では、パープレキシティと下流タスクの精度の改善が示されている。
関連論文リスト
- SAND: Spatially Adaptive Network Depth for Fast Sampling of Neural Implicit Surfaces [91.71563221166417]
入射神経表現は幾何学的モデリングには強力であるが、その実用性は高い計算コストによって制限されることが多い。
本稿では,空間適応型ネットワーク深度を用いた効率的なニューラル暗黙的幾何表現フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-15T14:14:17Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - Regularizing Subspace Redundancy of Low-Rank Adaptation [54.473090597164834]
本稿では、マッピング部分空間間の冗長性を明示的にモデル化し、低ランク適応のサブスペース冗長性を適応的に正規化する手法であるReSoRAを提案する。
提案手法は、視覚言語検索や標準的な視覚分類ベンチマークにおいて、様々なバックボーンやデータセットにまたがる既存のPETL手法を一貫して促進する。
トレーニングの監督として、ReSoRAは追加の推論コストなしで、プラグイン・アンド・プレイ方式で既存のアプローチにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-07-28T11:52:56Z) - Attention-Guided Multi-Scale Local Reconstruction for Point Clouds via Masked Autoencoder Self-Supervised Learning [9.390627399366833]
我々は,ポイントクラウド処理のための新しい自己教師型学習フレームワークであるPointAMaLRを紹介する。
PointAMaLRは複数の局所領域にまたがる階層的再構成を実装している。
ベンチマークデータセットの実験では、PointAMaLRの分類タスクと再構成タスクの両方において、精度と品質が優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-05T16:17:49Z) - Stochastic Layer-wise Learning: Scalable and Efficient Alternative to Backpropagation [1.0285749562751982]
バックプロパゲーションは現代のディープラーニングを支えるものだが、グローバル同期への依存はスケーラビリティを制限し、高いメモリコストを発生させる。
対照的に、完全に局所的な学習ルールはより効率的であるが、コヒーレントなグローバルラーニングに必要な層間調整を維持するのに苦労することが多い。
本稿では,グローバルな目標を協調的なレイヤローカル更新に分解するレイヤワイズ学習アルゴリズムであるレイヤワイズ学習(SLL)を紹介する。
論文 参考訳(メタデータ) (2025-05-08T12:32:29Z) - Compressing Image-to-Image Translation GANs Using Local Density
Structures on Their Learned Manifold [69.33930972652594]
GAN(Generative Adversarial Networks)は、画像から画像への変換のための複雑なデータ分散のモデル化において、顕著な成功を収めている。
既存のGAN圧縮法は主に知識蒸留や畳み込み分類器の刈り取り技術に依存している。
学習多様体上の元のパラメータ重モデルの密度構造を保存するために,プルーンドモデルを明示的に促すことにより,新しいアプローチを提案する。
画像変換GANモデルであるPix2PixとCycleGANについて,様々なベンチマークデータセットとアーキテクチャを用いて実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-22T15:43:12Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Dense Residual Network: Enhancing Global Dense Feature Flow for
Character Recognition [75.4027660840568]
本稿では,すべての畳み込み層から階層的特徴をフルに活用することにより,局所的・大域的特徴フローを改善する方法について検討する。
技術的には、テキスト認識のための効率的で効果的なCNNフレームワークであるFDRN(Fast Dense Residual Network)を提案する。
論文 参考訳(メタデータ) (2020-01-23T06:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。