論文の概要: Instruction-Guided Autoregressive Neural Network Parameter Generation
- arxiv url: http://arxiv.org/abs/2504.02012v1
- Date: Wed, 02 Apr 2025 05:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:58.033734
- Title: Instruction-Guided Autoregressive Neural Network Parameter Generation
- Title(参考訳): 命令誘導型自己回帰型ニューラルネットワークパラメータ生成
- Authors: Soro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang,
- Abstract要約: 本稿では,多種多様なタスクやアーキテクチャにまたがるパラメータ合成を統一する自動回帰フレームワークIGPGを提案する。
ニューラルネットワーク重みのトークンを自動回帰的に生成することにより、IGPGは層間コヒーレンスを確保し、モデルとデータセット間の効率的な適応を可能にする。
複数のデータセットの実験により、IGPGは様々な事前訓練されたモデルを単一の柔軟な生成フレームワークに統合することを示した。
- 参考スコア(独自算出の注目度): 49.800239140036496
- License:
- Abstract: Learning to generate neural network parameters conditioned on task descriptions and architecture specifications is pivotal for advancing model adaptability and transfer learning. Existing methods especially those based on diffusion models suffer from limited scalability to large architectures, rigidity in handling varying network depths, and disjointed parameter generation that undermines inter-layer coherence. In this work, we propose IGPG (Instruction Guided Parameter Generation), an autoregressive framework that unifies parameter synthesis across diverse tasks and architectures. IGPG leverages a VQ-VAE and an autoregressive model to generate neural network parameters, conditioned on task instructions, dataset, and architecture details. By autoregressively generating neural network weights' tokens, IGPG ensures inter-layer coherence and enables efficient adaptation across models and datasets. Operating at the token level, IGPG effectively captures complex parameter distributions aggregated from a broad spectrum of pretrained models. Extensive experiments on multiple vision datasets demonstrate that IGPG consolidates diverse pretrained models into a single, flexible generative framework. The synthesized parameters achieve competitive or superior performance relative to state-of-the-art methods, especially in terms of scalability and efficiency when applied to large architectures. These results underscore ICPG potential as a powerful tool for pretrained weight retrieval, model selection, and rapid task-specific fine-tuning.
- Abstract(参考訳): タスク記述とアーキテクチャ仕様に基づいてニューラルネットワークパラメータを生成する学習は、モデルの適応性と伝達学習を前進させる上で重要である。
既存の拡散モデルに基づく手法は、大規模アーキテクチャへのスケーラビリティの制限、ネットワーク深度の変化に対する剛性、層間コヒーレンスを損なう不整合パラメータの生成に悩まされている。
本研究では,多種多様なタスクやアーキテクチャ間でパラメータ合成を統合する自動回帰フレームワークIGPG(Instruction Guided Parameter Generation)を提案する。
IGPGはVQ-VAEと自己回帰モデルを利用して、タスク命令、データセット、アーキテクチャの詳細を条件としたニューラルネットワークパラメータを生成する。
ニューラルネットワーク重みのトークンを自動回帰的に生成することにより、IGPGは層間コヒーレンスを確保し、モデルとデータセット間の効率的な適応を可能にする。
トークンレベルで動作しているIGPGは、事前訓練されたモデルの幅広いスペクトルから集約された複雑なパラメータ分布を効果的にキャプチャする。
複数の視覚データセットに関する大規模な実験により、IGPGは様々な事前訓練されたモデルを単一のフレキシブルな生成フレームワークに統合することを示した。
合成されたパラメータは、最先端の手法と比較して、特に大規模アーキテクチャに適用された場合のスケーラビリティと効率の点で、競争力や優れた性能を達成する。
これらの結果から, ICPG電位は, 事前学習した重み付け, モデル選択, タスク特異的な高速微調整の強力なツールとして評価された。
関連論文リスト
- Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。
我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-02-16T23:13:55Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Meta-Ensemble Parameter Learning [35.6391802164328]
本稿では,メタラーニング手法を用いて,単一モデルのパラメータを直接予測できるかどうかを考察する。
WeightFormerは、トランスフォーマーベースのモデルで、フォワードパスの層で生徒のネットワーク重みを予測できる。
論文 参考訳(メタデータ) (2022-10-05T00:47:24Z) - ASGNN: Graph Neural Networks with Adaptive Structure [41.83813812538167]
本稿では,アダプティブ構造(ASMP)を用いた新しい解釈可能なメッセージパッシング方式を提案する。
ASMPは、異なるレイヤにおけるメッセージパッシングプロセスが動的に調整されたグラフ上で実行可能であるという意味で適応的である。
論文 参考訳(メタデータ) (2022-10-03T15:10:40Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Parameterized Hypercomplex Graph Neural Networks for Graph
Classification [1.1852406625172216]
我々は超複雑特徴変換の特性を利用するグラフニューラルネットワークを開発した。
特に、提案したモデルのクラスでは、代数自身を特定する乗法則は、トレーニング中にデータから推測される。
提案するハイパーコンプレックスgnnをいくつかのオープングラフベンチマークデータセット上でテストし,そのモデルが最先端の性能に達することを示す。
論文 参考訳(メタデータ) (2021-03-30T18:01:06Z) - Ensembles of Spiking Neural Networks [0.3007949058551534]
本稿では,最先端の結果を生み出すスパイクニューラルネットワークのアンサンブルを構築する方法について述べる。
MNIST, NMNIST, DVS Gestureデータセットの分類精度は98.71%, 100.0%, 99.09%である。
我々は、スパイキングニューラルネットワークをGLM予測器として形式化し、ターゲットドメインに適した表現を識別する。
論文 参考訳(メタデータ) (2020-10-15T17:45:18Z) - Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text
Generation [56.73834525802723]
軽量な動的グラフ畳み込みネットワーク (LDGCN) を提案する。
LDGCNは入力グラフから高次情報を合成することにより、よりリッチな非局所的な相互作用をキャプチャする。
我々は,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。
論文 参考訳(メタデータ) (2020-10-09T06:03:46Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。