論文の概要: VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse
- arxiv url: http://arxiv.org/abs/2512.14531v1
- Date: Tue, 16 Dec 2025 16:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.777421
- Title: VersatileFFN: Achieving Parameter Efficiency in LLMs via Adaptive Wide-and-Deep Reuse
- Title(参考訳): VersatileFFN:適応広深度再使用によるLCMのパラメータ効率向上
- Authors: Ying Nie, Kai Han, Hongguang Li, Hang Zhou, Tianyu Guo, Enhua Wu, Xinghao Chen, Yunhe Wang,
- Abstract要約: We propose VersatileFFN, a novel feed-forward network that enables flexible use of parameters in width and depth dimensions。
困難を意識したゲーティングは、2つの経路を動的にバランスさせ、効率的な幅方向の経路を「簡単」トークンを操り、より深い反復的な洗練を「ハード」トークンに割り当てる。
多様なベンチマークとモデルスケールによる実験は、この方法の有効性を実証している。
- 参考スコア(独自算出の注目度): 45.255254030425846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid scaling of Large Language Models (LLMs) has achieved remarkable performance, but it also leads to prohibitive memory costs. Existing parameter-efficient approaches such as pruning and quantization mainly compress pretrained models without enhancing architectural capacity, thereby hitting the representational ceiling of the base model. In this work, we propose VersatileFFN, a novel feed-forward network (FFN) that enables flexible reuse of parameters in both width and depth dimensions within a fixed parameter budget. Inspired by the dual-process theory of cognition, VersatileFFN comprises two adaptive pathways: a width-versatile path that generates a mixture of sub-experts from a single shared FFN, mimicking sparse expert routing without increasing parameters, and a depth-versatile path that recursively applies the same FFN to emulate deeper processing for complex tokens. A difficulty-aware gating dynamically balances the two pathways, steering "easy" tokens through the efficient width-wise route and allocating deeper iterative refinement to "hard" tokens. Crucially, both pathways reuse the same parameters, so all additional capacity comes from computation rather than memory. Experiments across diverse benchmarks and model scales demonstrate the effectiveness of the method. The code will be available at https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
- Abstract(参考訳): LLM(Large Language Models)の急激なスケーリングは目覚ましいパフォーマンスを達成したが、メモリコストの禁止につながった。
プルーニングや量子化といった既存のパラメータ効率のアプローチは、主にアーキテクチャ能力を向上させることなく事前訓練されたモデルを圧縮し、ベースモデルの表現天井に到達させる。
本研究では,固定パラメータ予算内での幅と深さの両次元でのパラメータの柔軟な再利用を可能にする新しいフィードフォワードネットワーク(FFN)であるVersatileFFNを提案する。
認知の二重過程理論にインスパイアされたVersatileFFNは、単一の共有FFNからサブエキスパートの混合物を生成する幅可逆経路と、パラメータを増大させることなくスパースエキスパートルーティングを模倣する深さ可逆経路と、同じFFNを再帰的に適用して複雑なトークンの深い処理をエミュレートする深さ可逆経路の2つの適応経路から構成される。
困難を意識したゲーティングは、2つの経路を動的にバランスさせ、効率的な幅方向の経路を「簡単」トークンを操り、より深い反復的な洗練を「ハード」トークンに割り当てる。
重要なことに、どちらの経路も同じパラメータを再利用しているため、追加の容量はすべてメモリではなく計算によるものである。
多様なベンチマークとモデルスケールによる実験は、この方法の有効性を実証している。
コードはhttps://github.com/huawei-noah/noah-research/tree/master/VersatileFFNで入手できる。
関連論文リスト
- Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [61.67090981767583]
本研究では,Mixture-of-Recursions (MoR)を導入した。
MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。
また、メモリフットプリントをさらに削減するために、KVペアを最初の再帰から再利用するKV共有変種を提案する。
論文 参考訳(メタデータ) (2025-07-14T17:49:00Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - Towards Deep and Efficient: A Deep Siamese Self-Attention Fully
Efficient Convolutional Network for Change Detection in VHR Images [28.36808011351123]
EffCDNetという非常に深く効率的なCDネットワークを提示する。
EffCDNetでは、ディープワイド畳み込みとチャネルシャッフル機構によるグループ畳み込みからなる効率的な畳み込みが導入された。
難易度の高い2つのCDデータセットにおいて、本手法は他のSOTA FCN法よりも優れている。
論文 参考訳(メタデータ) (2021-08-18T14:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。