論文の概要: Constraint-based Pre-training: From Structured Constraints to Scalable Model Initialization
- arxiv url: http://arxiv.org/abs/2604.14769v1
- Date: Thu, 16 Apr 2026 08:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.803887
- Title: Constraint-based Pre-training: From Structured Constraints to Scalable Model Initialization
- Title(参考訳): 制約に基づく事前学習:構造化制約からスケーラブルモデル初期化へ
- Authors: Fu Feng, Yucheng Xie, Ruixiao Shi, Jing Wang, Xin Geng,
- Abstract要約: WeiTはトレーニング前のパラダイムで、サイズに依存しない知識を再利用可能なウェイトテンプレートに分解する。
WeTは、深さと幅の異なるモデルの初期化において、最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 29.901255886542515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-training and fine-tuning paradigm has become the dominant approach for model adaptation. However, conventional pre-training typically yields models at a fixed scale, whereas practical deployment often requires models of varying sizes, exposing its limitations when target model scales differ from those used during pre-training. To address this, we propose an innovative constraint-based pre-training paradigm that imposes structured constraints during pre-training to disentangle size-agnostic knowledge into reusable weight templates, while assigning size-specific adaptation to lightweight weight scalers, thereby reformulating variable-sized model initialization as a multi-task adaptation problem. Within this paradigm, we further introduce WeiT, which employs Kronecker-based constraints to regularize the pre-training process. Specifically, model parameters are represented as compositions of weight templates via concatenation and weighted aggregation, with adaptive connections governed by lightweight weight scalers whose parameters are learned from limited data. This design enables flexible and efficient construction of model weights across diverse downstream scales. Extensive experiments demonstrate the efficiency and effectiveness of WeiT, achieving state-of-the-art performance in initializing models with varying depths and widths across a broad range of perception and embodied learning tasks, including Image Classification, Image Generation, and Embodied Control. Moreover, its effectiveness generalizes to both Transformer-based and Convolution-based architectures, consistently enabling faster convergence and improved performance even under full training.
- Abstract(参考訳): 事前学習と微調整のパラダイムがモデル適応の主要なアプローチとなっている。
しかしながら、従来の事前訓練では、通常、一定のスケールでモデルを生成するが、実際の配置では、異なるサイズのモデルを必要とすることが多く、目標モデルのスケールが事前訓練で使用されるモデルと異なる場合の制限を露呈する。
そこで本稿では, 軽量スケーラにサイズ固有の適応を割り当てた上で, マルチタスク適応問題として可変モデル初期化を再構成しながら, 事前学習中に構造化制約を課し, サイズ非依存の知識を再利用可能な重みテンプレートに分解する, 革新的な制約ベース事前学習パラダイムを提案する。
このパラダイムでは、Kroneckerに基づく制約を用いて事前学習プロセスの正規化を行うWeiTについても紹介する。
具体的には、モデルパラメータは、連結と重み付け集約による重みテンプレートの合成として表現され、パラメータが限られたデータから学習される軽量な重みスケーラによって制御される適応接続を持つ。
この設計により、様々な下流スケールにわたるモデルウェイトを柔軟かつ効率的に構築することができる。
広汎な実験により、WeiTの効率と有効性を示し、画像分類、画像生成、身体制御を含む幅広い知覚および具体的学習タスクにわたる様々な深さと幅のモデルの初期化において、最先端の性能を達成する。
さらに、その効果はTransformerベースのアーキテクチャとConvolutionベースのアーキテクチャの両方に一般化され、完全なトレーニング下であっても、より高速なコンバージェンスとパフォーマンスの向上を実現している。
関連論文リスト
- SALAAD: Sparse And Low-Rank Adaptation via ADMM for Large Language Model Inference [38.037874715181964]
トレーニング中にスパース構造と低ランク構造を誘導するプラグイン・アンド・プレイ・フレームワークであるSALAADを提案する。
モデルスケールでの実験では、SALAADはデプロイメント中のメモリ消費を大幅に削減する。
単一のトレーニングを実行すると、モデル能力の連続的なスペクトルが得られ、多様なメモリ予算をまたいだスムーズで弾力的なデプロイメントが可能になる。
論文 参考訳(メタデータ) (2026-02-01T00:00:11Z) - Self-Supervised Weight Templates for Scalable Vision Model Initialization [34.75805112986586]
SWEETは、視覚タスクのスケーラブルな初期化を可能にするために制約ベースの事前トレーニングを実行する、自己教師型フレームワークである。
そこで我々は,テンプレートを幅関係の次元に沿って規則化し,頑健な幅幅の表現を奨励するワイドワイドスケーリングを導入する。
SWEETの最先端性能を示すテキスト分類、テキスト分割、テキスト生成に関する実験。
論文 参考訳(メタデータ) (2026-01-27T15:15:17Z) - An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。
複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。
本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:28:23Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - WAVE: Weight Templates for Adaptive Initialization of Variable-sized Models [37.97945436202779]
WAVEは変数サイズのモデルを初期化するための新しいアプローチである。
WAVEでは、サイズ固有のウェイトスケーラとともに、共有サイズに依存しないウェイトテンプレートを採用している。
WAVEは様々な深さと幅のモデルの初期化において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-06-25T12:43:33Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。