論文の概要: TwIST: Rigging the Lottery in Transformers with Independent Subnetwork Training
- arxiv url: http://arxiv.org/abs/2511.03983v1
- Date: Thu, 06 Nov 2025 02:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.27291
- Title: TwIST: Rigging the Lottery in Transformers with Independent Subnetwork Training
- Title(参考訳): TwIST:独立サブネットワークトレーニングによるトランスフォーマーのロッキーリグ
- Authors: Michael Menezes, Barbara Su, Xinze Feng, Yehya Farhat, Hamza Shili, Anastasios Kyrillidis,
- Abstract要約: TwISTは、分散トレーニングフレームワークで、効率的な大規模言語モデルのスカラー化を実現している。
マルチワークを並列にトレーニングし、パラメータを定期的に集約し、トレーニング中に新しいワークを再サンプリングする。
キャリブレーションやヘッセンベースのリカバリのようなポストトレーニング手順を必要とせず、高品質なワーク(金のチケット)を識別する。
- 参考スコア(独自算出の注目度): 6.7228358095570995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TwIST, a distributed training framework for efficient large language model (LLM) sparsification. TwIST trains multiple subnetworks in parallel, periodically aggregates their parameters, and resamples new subnetworks during training. This process identifies high-quality subnetworks ("golden tickets") without requiring post-training procedures such as calibration or Hessian-based recovery. As a result, TwIST enables zero-cost pruning at deployment time while achieving perplexity competitive with state-of-the-art post-training sparsification methods. The benefits are most pronounced under aggressive sparsity (e.g., 50%+), where TwIST significantly outperforms baseline methods; for example, reaching 23.14 PPL compared to 31.64 for the closest prior approach. Unlike unstructured pruning, TwIST produces structured, dense matrices that offer practical inference speedups and memory reductions on commodity hardware (e.g., CPUs) that do not support efficient sparse computation. TwIST provides an efficient training-time path to deployable sparse LLMs without additional fine-tuning or recovery overhead.
- Abstract(参考訳): 本稿では,効率的な大規模言語モデル(LLM)の分散トレーニングフレームワークであるTwISTを紹介する。
TwISTは複数のサブネットワークを並列にトレーニングし、パラメータを定期的に集約し、トレーニング中に新しいサブネットワークを再サンプリングする。
このプロセスは、キャリブレーションやヘッセンベースのリカバリのようなポストトレーニング手順を必要とすることなく、高品質なサブネット(金のチケット)を識別する。
結果として、TwISTは、最先端の訓練後スパーシフィケーション手法と競合する難易度を達成しつつ、デプロイ時にゼロコストプルーニングを可能にする。
例えば、TwISTは最寄りのアプローチでは31.64と比べて23.14 PPLに達している。
構造化されていないプルーニングとは異なり、TwISTは、効率的なスパース計算をサポートしないコモディティハードウェア(CPUなど)上で、実用的な推論スピードアップとメモリ削減を提供する構造化された高密度行列を生成する。
TwISTは、より詳細なチューニングやリカバリのオーバーヘッドを伴わずに、デプロイ可能なスパースLSMへの効率的なトレーニングタイムパスを提供する。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - LoSiA: Efficient High-Rank Fine-Tuning via Subnet Localization and Optimization [6.641493851051085]
LoSiA(Low-Resources Subnet Integration Adaptation)は、トレーニングプロセス中に重要なパラメータを動的にローカライズし最適化する革新的な手法である。
LoSiA-ProはLoSiAのより高速な実装で、LoRAと比較してトレーニングのレイテンシを約27%削減します。
論文 参考訳(メタデータ) (2025-07-06T17:51:57Z) - UniPTS: A Unified Framework for Proficient Post-Training Sparsity [67.16547529992928]
Post-Traiing Sparsity (PTS)は、必要な限られたデータで効率的なネットワークスパシティを追求する、新たに登場した道である。
本稿では,従来のスパシティの性能をPSSの文脈に大きく変化させる3つの基本因子を変換することで,この相違を解消しようとする。
我々のフレームワークはUniPTSと呼ばれ、広範囲のベンチマークで既存のPTSメソッドよりも優れていることが検証されている。
論文 参考訳(メタデータ) (2024-05-29T06:53:18Z) - Trainability Preserving Neural Structured Pruning [64.65659982877891]
本稿では,正規化型構造化プルーニング法であるTPP(Traiability Preserving pruning)を提案する。
TPPは線形ネットワーク上での地中動力学的等尺性回復法と競合する。
多くのトップパフォーマンスのフィルタプルーニング手法と比較して、優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2022-07-25T21:15:47Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Superposing Many Tickets into One: A Performance Booster for Sparse
Neural Network Training [32.30355584300427]
本研究では,2つのデシラタを同時に1つのスパース・ツー・スパース・トレーニング・プロセスで満たすことのできる,新しいスパース・トレーニング・アプローチであるtextbfSup-tkets を提案する。
CIFAR-10/100 および ImageNet 上の様々なモダンアーキテクチャにおいて,Sup-tket が既存のスパーストレーニング手法とシームレスに統合されていることを示す。
論文 参考訳(メタデータ) (2022-05-30T16:01:32Z) - Sparsity Winning Twice: Better Robust Generalization from More Efficient
Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。
いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。
我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文 参考訳(メタデータ) (2022-02-20T15:52:08Z) - [Reproducibility Report] Rigging the Lottery: Making All Tickets Winners [1.6884611234933766]
スパーストレーニングアルゴリズムである$textitRigL$は、既存の密集型トレーニング技術のパフォーマンスに適合または超過したスパースネットワークを直接トレーニングする、と主張している。
Pytorchのスクラッチから$textitRigL$を実装し、報告された値の0.1%以内でCIFAR-10のパフォーマンスを再現する。
論文 参考訳(メタデータ) (2021-03-29T17:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。