論文の概要: Iterative Structured Pruning for Large Language Models with Multi-Domain Calibration
- arxiv url: http://arxiv.org/abs/2601.02674v1
- Date: Tue, 06 Jan 2026 03:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.784101
- Title: Iterative Structured Pruning for Large Language Models with Multi-Domain Calibration
- Title(参考訳): マルチドメイン校正による大規模言語モデルの反復的構造化プルーニング
- Authors: Guangxin Wu, Hao Zhang, Zhang Zhibin, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理タスクの幅広い範囲で顕著な成功を収めている。
その拡大を続けるスケールは、かなりの計算オーバーヘッド、メモリフットプリント、推論レイテンシなど、現実世界のデプロイメントに重大な障壁をもたらす。
本研究では,アーキテクチャコンポーネント全体を排除し,標準ハードウェアアクセラレーションとの互換性を維持する構造的プルーニングについて検討する。
- 参考スコア(独自算出の注目度): 73.40887151631088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success across a wide spectrum of natural language processing tasks. However, their ever-growing scale introduces significant barriers to real-world deployment, including substantial computational overhead, memory footprint, and inference latency. While model pruning presents a viable solution to these challenges, existing unstructured pruning techniques often yield irregular sparsity patterns that necessitate specialized hardware or software support. In this work, we explore structured pruning, which eliminates entire architectural components and maintains compatibility with standard hardware accelerators. We introduce a novel structured pruning framework that leverages a hybrid multi-domain calibration set and an iterative calibration strategy to effectively identify and remove redundant channels. Extensive experiments on various models across diverse downstream tasks show that our approach achieves significant compression with minimal performance degradation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理タスクの幅広い範囲で顕著な成功を収めている。
しかし、その拡大を続けるスケールは、かなりの計算オーバーヘッド、メモリフットプリント、推論レイテンシなど、現実世界のデプロイメントに重大な障壁をもたらす。
モデルプルーニングはこれらの課題に対して実行可能な解決策であるが、既存の非構造化プルーニング技術は、特別なハードウェアやソフトウェアのサポートを必要とする不規則なスペーサパターンを生じることが多い。
本研究では,アーキテクチャコンポーネント全体を排除し,標準ハードウェアアクセラレーションとの互換性を維持する構造的プルーニングについて検討する。
本稿では,ハイブリッドマルチドメインキャリブレーションセットと反復キャリブレーション戦略を利用して,冗長チャネルを効果的に識別・除去する新しい構造化プルーニングフレームワークを提案する。
ダウンストリームタスクの多種多様なモデルに対する大規模な実験により,本手法は性能劣化を最小限に抑え,大幅な圧縮を実現することが示された。
関連論文リスト
- Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - Application-Specific Component-Aware Structured Pruning of Deep Neural Networks via Soft Coefficient Optimization [1.6874375111244326]
アプリケーション固有のパフォーマンス特性が圧縮中に確実に保持されることは、依然として重要です。
構造的コヒーレントな要素群が取り除かれた構造化プルーニングでは、従来の重要な指標はこれらの重要な性能特性を維持できないことが多い。
本稿では,モデルのサイズを縮小するだけでなく,アプリケーション固有の性能制約を明示的に考慮した重要度測定フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T09:50:04Z) - Tady: A Neural Disassembler without Structural Constraint Violations [14.794789423601552]
改良されたモデルアーキテクチャと専用の後処理アルゴリズムを備えたニューラルディスアセンブラであるTadyを紹介する。
そこで,Tadyは命令レベルの精度を維持しつつ,構造的制約違反や関数を高い効率で効果的に除去することを示した。
論文 参考訳(メタデータ) (2025-06-16T10:11:43Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Gatekeeper: Improving Model Cascades Through Confidence Tuning [45.46791873454989]
カスケード構成の小型モデルを校正するための新しい損失関数「ゲートキーパー」を導入する。
我々のアプローチは、より小さなモデルを微調整して、より大規模なモデルに複雑なタスクを遅延させながら、正しく実行できるタスクを確実に処理する。
論文 参考訳(メタデータ) (2025-02-26T17:29:08Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。