論文の概要: A Unified Framework for Knowledge Transfer in Bidirectional Model Scaling
- arxiv url: http://arxiv.org/abs/2603.07506v1
- Date: Sun, 08 Mar 2026 07:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.698354
- Title: A Unified Framework for Knowledge Transfer in Bidirectional Model Scaling
- Title(参考訳): 双方向モデルスケーリングにおける知識伝達のための統一フレームワーク
- Authors: Jianlu Shen, Fu Feng, Jiaze Xu, Yucheng Xie, Jiaqi Lv, Xin Geng,
- Abstract要約: 本稿では,S2LとL2Sのスケーリングを統一する最初のサイズに依存しないフレームワークであるBoTを提案する。
私たちの中心となる洞察は、モデルの重みを連続的な信号として扱うことです。
DeiT,BERT,GPTの広範囲な実験により,FLOPの保存が顕著であった。
- 参考スコア(独自算出の注目度): 31.9971752399134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferring pre-trained knowledge from a source model to a target model of a different architectural size is a key challenge for flexible and efficient model scaling. However, current parameter-space methods treat Small-to-Large (S2L) and Large-to-Small (L2S) scaling as separate, incompatible problems, focusing on parameter synthesis and selection, respectively. This fragmented perspective has resulted in specialized tools, hindering a unified, bidirectional framework. In this paper, we propose BoT (Bidirectional knowledge Transfer), the first size-agnostic framework to unify S2L and L2S scaling. Our core insight is to treat model weights as continuous signals, where models of different sizes represent distinct discretizations of the transferable knowledge. This multi-resolution perspective directly casts S2L and L2S scaling as the signal processing operations of upsampling and downsampling, naturally leading to the adoption of the Discrete Wavelet Transform (DWT) and its Inverse (IDWT). BoT leverages the recursive nature of wavelets, using the decomposition level as a dynamic scaling factor to bridge disparate model sizes in a parameter-free and computationally efficient manner. Extensive experiments on DeiT, BERT, and GPT demonstrate significant pre-training FLOPs savings (up to 67.1% for S2L, 52.8% for L2S) and state-of-the-art performance on benchmarks like GLUE and SQuAD.
- Abstract(参考訳): ソースモデルから異なるアーキテクチャサイズのターゲットモデルに事前訓練された知識を移行することは、フレキシブルで効率的なモデルスケーリングにとって重要な課題である。
しかし、現在のパラメータ空間法では、Small-to-Large(S2L)とLarge-to-Small(L2S)のスケーリングは、それぞれパラメータ合成と選択に焦点をあてて、独立した非互換な問題として扱われている。
この断片化された視点は特別なツールをもたらし、統一された双方向フレームワークを妨げる。
本稿では,S2LとL2Sのスケーリングを統一する最初のサイズに依存しないフレームワークであるBoTを提案する。
私たちの中心となる洞察は、モデルの重みを連続的な信号として扱うことです。
このマルチレゾリューションは、アップサンプリングとダウンサンプリングの信号処理操作としてS2LとL2Sのスケーリングを直接適用し、離散ウェーブレット変換(DWT)と逆変換(IDWT)を採用した。
BoTはウェーブレットの帰納的性質を活用し、分解レベルを動的スケーリング因子として利用し、パラメータフリーで計算的に効率的な方法で異なるモデルサイズをブリッジする。
DeiT、BERT、GPTの大規模な実験では、FLOPsのトレーニング前の大幅な削減(S2Lは67.1%、L2Sは52.8%)とGLUEやSQuADのようなベンチマークにおける最先端のパフォーマンスを示している。
関連論文リスト
- LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity [22.40851170527]
スケーリング法則は、大規模言語モデルの成功において中心的な役割を果たす。
xLSTMのような最近の選択肢は、コンテキスト長に関する線形複雑性を提供する。
xLSTMの利点は、トレーニングと推論のコンテキストが大きくなるにつれて拡大します。
論文 参考訳(メタデータ) (2025-10-02T17:14:34Z) - S2A: A Unified Framework for Parameter and Memory Efficient Transfer Learning [8.602744958104969]
本研究では,微調整時の活性化のメモリフットプリントを低減するため,新しいPETLフレームワークであるStructure to Activation (S2A)を提案する。
具体的には,1)パラメトリックモデル構造におけるアクティベーションモジュールの設計(バイアス,プロンプト,サイドモジュール)からなり,パラメータやアクティベーションメモリの大幅な削減を実現している。
提案手法は既存のPETL技術よりも優れており,GPUメモリフットプリントの4倍の削減を実現しているだけでなく,可変パラメータの少ない精度で競合性能を示す。
論文 参考訳(メタデータ) (2025-03-11T08:10:03Z) - On the Scalability of Diffusion-based Text-to-Image Generation [97.64837704129005]
拡散に基づくテキスト・ツー・イメージ(T2I)モデルのスケーリング特性について検討する。
モデルスケーリングでは、既存のUNet設計の性能を区別して、クロスアテンションの位置と量を求める。
データスケーリングの面では、単にデータセットのサイズではなく、トレーニングセットの品質と多様性が重要です。
論文 参考訳(メタデータ) (2024-04-03T17:34:28Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples [46.025105938192624]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて顕著に機能している。
ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティング問題に悩まされる。
本稿では,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
論文 参考訳(メタデータ) (2023-05-13T14:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。