論文の概要: One-for-All Model Initialization with Frequency-Domain Knowledge
- arxiv url: http://arxiv.org/abs/2603.07523v1
- Date: Sun, 08 Mar 2026 08:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.712556
- Title: One-for-All Model Initialization with Frequency-Domain Knowledge
- Title(参考訳): 周波数領域知識を用いた一対一モデル初期化
- Authors: Jianlu Shen, Fu Feng, Yucheng Xie, Jiaqi Lv, Xin Geng,
- Abstract要約: FRONT(FRequency dOmain kNowledge Transfer)は、Cosine Transform(DCT)を用いて低周波の"Lerngene"を単離する新しいフレームワークである。
FRONTは最先端のパフォーマンスを達成し、視覚タスクの収束を最大15倍加速し、FLOPのトレーニングを平均40.5%削減する。
- 参考スコア(独自算出の注目度): 33.90471312176688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferring knowledge by fine-tuning large-scale pre-trained networks has become a standard paradigm for downstream tasks, yet the knowledge of a pre-trained model is tightly coupled with monolithic architecture, which restricts flexible reuse across models of varying scales. In response to this challenge, recent approaches typically resort to either parameter selection, which fails to capture the interdependent structure of this knowledge, or parameter prediction using generative models that depend on impractical access to large network collections. In this paper, we empirically demonstrate that a model's foundational, task-agnostic knowledge, its "learngene", is encoded within the low-frequency components of its weights, and can be efficiently inherited by downstream models. Based on this insight, we propose FRONT (FRequency dOmain kNowledge Transfer), a novel framework that uses the Discrete Cosine Transform (DCT) to isolate the low-frequency "learngene". This learngene can be seamlessly adapted to initialize models of arbitrary size via simple truncation or padding, a process that is entirely training-free. For enhanced performance, we propose an optional low-cost refinement process that introduces a spectral regularizer to further improve the learngene's transferability. Extensive experiments demonstrate that FRONT achieves the state-of-the-art performance, accelerates convergence by up to 15 times in vision tasks, and reduces training FLOPs by an average of 40.5% in language tasks.
- Abstract(参考訳): 大規模な事前学習ネットワークを微調整して知識を伝達することは、下流タスクの標準パラダイムとなっているが、事前学習されたモデルの知識は、様々なスケールのモデルの柔軟な再利用を制限するモノリシックアーキテクチャと密結合している。
この課題に対して、近年のアプローチでは、この知識の相互依存構造を捉えるのに失敗するパラメータ選択や、大規模なネットワークコレクションへの非現実的なアクセスに依存する生成モデルを用いたパラメータ予測を利用するのが一般的である。
本稿では,モデルの基本的,タスクに依存しない知識である「遺伝子」が,その重みの低周波成分に符号化され,下流モデルによって効率的に継承可能であることを実証的に示す。
この知見に基づいて、離散コサイン変換(DCT)を用いて低周波「遺伝子」を分離する新しいフレームワークであるFRONT(Frequency dOmain kNowledge Transfer)を提案する。
この学習遺伝子は、単純なトランケーションやパディングを通じて任意のサイズのモデルの初期化にシームレスに適応することができる。
性能向上のために, スペクトル正規化器を導入し, 学習ジェネレーションの伝達性をさらに向上する低コスト精錬法を提案する。
大規模な実験により、FRONTは最先端のパフォーマンスを達成し、視覚タスクにおける最大15倍の収束を加速し、言語タスクにおける平均40.5%のFLOPのトレーニングを削減した。
関連論文リスト
- Model Merging via Multi-Teacher Knowledge Distillation [11.543771846135021]
モデルマージ設定に特化して、新しい平坦性を考慮したPAC-Bayes一般化を導入する。
我々は,少ないラベルのないデータに基づいて,マルチ教師の知識蒸留としてマージするモデルを構築した。
我々は,学生教師のKulback-Leibler分散の最小化が,合併モデルの過大なリスクの上限を直接締め付けることを正式に証明した。
論文 参考訳(メタデータ) (2025-12-24T17:10:44Z) - Model Inversion with Layer-Specific Modeling and Alignment for Data-Free Continual Learning [19.12792297140574]
継続的な学習は、以前のタスクのパフォーマンスを維持しながら、一連のタスクでモデルを漸進的にトレーニングすることを目的としています。
データの保存と再生は、プライバシやセキュリティ上の制約によって不可能になることが多い。
単層最適化における高速収束にインスパイアされたPMI(Per-layer Model Inversion)を提案する。
論文 参考訳(メタデータ) (2025-10-30T09:58:48Z) - Large EEG-U-Transformer for Time-Step Level Detection Without Pre-Training [1.3254304182988286]
局所的特徴と大域的特徴の両方を捉えることで表現を効率的に学習する単純なU字モデルを提案する。
他のウィンドウレベルの分類モデルと比較して,本手法は時間段階の予測を直接出力する。
我々のモデルは、てんかんおよび他の神経疾患における人工知能に関する国際会議において、2025年の第1回「青信号検出チャレンジ」で優勝した。
論文 参考訳(メタデータ) (2025-04-01T01:33:42Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。