論文の概要: NeuroGen: Neural Network Parameter Generation via Large Language Models
- arxiv url: http://arxiv.org/abs/2505.12470v2
- Date: Fri, 23 May 2025 06:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 13:31:15.763464
- Title: NeuroGen: Neural Network Parameter Generation via Large Language Models
- Title(参考訳): NeuroGen: 大規模言語モデルによるニューラルネットワークパラメータ生成
- Authors: Jiaqi Wang, Yusen Zhang, Xi Li,
- Abstract要約: ニューラルネットワーク(NN)のパラメータを取得することは、機械学習における最も重要な問題のひとつだ。
本稿では,大規模言語モデル生成によるNNパラメータの獲得という,新たな方向性の実現可能性について検討する。
- 参考スコア(独自算出の注目度): 32.16082052558773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acquiring the parameters of neural networks (NNs) has been one of the most important problems in machine learning since the inception of NNs. Traditional approaches, such as backpropagation and forward-only optimization, acquire parameters via iterative data fitting to gradually optimize them. This paper aims to explore the feasibility of a new direction: acquiring NN parameters via large language model generation. We propose NeuroGen, a generalized and easy-to-implement two-stage approach for NN parameter generation conditioned on descriptions of the data, task, and network architecture. Stage one is Parameter Reference Knowledge Injection, where LLMs are pretrained on NN checkpoints to build foundational understanding of parameter space, whereas stage two is Context-Enhanced Instruction Tuning, enabling LLMs to adapt to specific tasks through enriched, task-aware prompts. Experimental results demonstrate that NeuroGen effectively generates usable NN parameters. Our findings highlight the feasibility of LLM-based NN parameter generation and suggest a promising new paradigm where LLMs and lightweight NNs can coexist synergistically
- Abstract(参考訳): ニューラルネットワーク(NN)のパラメーターを取得することは、NNの登場以来、機械学習において最も重要な問題の一つとなっている。
バックプロパゲーションやフォワードオンリーの最適化といった従来の手法は、反復データフィッティングによってパラメータを取得し、徐々に最適化する。
本稿では,大規模言語モデル生成によるNNパラメータの獲得という,新たな方向性の実現可能性について検討する。
我々は,データ,タスク,ネットワークアーキテクチャの記述を条件に,NNパラメータ生成のための汎用的で実装の容易な2段階アプローチであるNeuroGenを提案する。
ステージ1はパラメータ参照知識注入(パラメータ参照知識注入)、ステージ2はコンテキスト拡張インストラクションチューニング(Context-Enhanced Instruction Tuning)である。
実験の結果,NeuroGenは有効なNNパラメータを生成することがわかった。
本研究は,LLMを用いたNNパラメータ生成の実現可能性を明らかにするとともに,LLMと軽量NNが相乗的に共存できる新しいパラダイムを提案する。
関連論文リスト
- Neural Parameter Regression for Explicit Representations of PDE Solution Operators [22.355460388065964]
偏微分方程式(PDE)の解演算子を学習するための新しいフレームワークであるニューラル回帰(NPR)を導入する。
NPRは、ニューラルネットワーク(NN)パラメータを回帰するために、Physics-Informed Neural Network (PINN, Raissi et al., 2021) 技術を使用している。
このフレームワークは、新しい初期条件と境界条件に顕著な適応性を示し、高速な微調整と推論を可能にした。
論文 参考訳(メタデータ) (2024-03-19T14:30:56Z) - Learning to Control Rapidly Changing Synaptic Connections: An
Alternative Type of Memory in Sequence Processing Artificial Neural Networks [9.605853974038936]
フィードフォワードNNをそのようなRNNに一般化することは数学的に単純で自然であり、歴史的でさえある。
短期記憶を「シナプス接続」に格納するという、あまり知られていない代替手法は、シーケンス処理NNにおいて別の「自然な」短期記憶をもたらす。
Fast Weight Programmers (FWPs) は近年、汎用シーケンスプロセッサとして復活し、様々なタスクで競合する性能を実現している。
論文 参考訳(メタデータ) (2022-11-17T10:03:54Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Learning Regularization Parameters of Inverse Problems via Deep Neural
Networks [0.0]
ネットワークが観察データから正規化パラメータへのマッピングを近似するように訓練される、教師付き学習アプローチを検討する。
本稿では,多種多様な正規化関数,フォワードモデル,ノイズモデルについて考察する。
ネットワークが取得する正規化パラメータは、より効率的に計算でき、より正確なソリューションにもつながります。
論文 参考訳(メタデータ) (2021-04-14T02:38:38Z) - On the Sparsity of Neural Machine Translation Models [65.49762428553345]
性能向上のために冗長パラメータを再利用できるかどうかを検討する。
実験と分析は異なるデータセットとNTTアーキテクチャで体系的に行われる。
論文 参考訳(メタデータ) (2020-10-06T11:47:20Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。