論文の概要: NNiT: Width-Agnostic Neural Network Generation with Structurally Aligned Weight Spaces
- arxiv url: http://arxiv.org/abs/2603.00180v1
- Date: Thu, 26 Feb 2026 20:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.085888
- Title: NNiT: Width-Agnostic Neural Network Generation with Structurally Aligned Weight Spaces
- Title(参考訳): NNiT: 構造配向重み空間を用いた幅非依存ニューラルネットワーク生成
- Authors: Jiwoo Kim, Swarajh Mehta, Hao-Lun Hsu, Hyunwoo Ryu, Yudong Liu, Miroslav Pajic,
- Abstract要約: ニューラルネットワーク拡散変換器 (NNiT) を導入し, ウェイトを幅に依存しない方法で生成する。
ManiSkill3のロボティクスタスクでは、NNiTはトレーニング中に見つからないアーキテクチャトポロジで85%の成功を達成し、ベースラインアプローチは一般化に失敗する。
- 参考スコア(独自算出の注目度): 15.631276865948097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative modeling of neural network parameters is often tied to architectures because standard parameter representations rely on known weight-matrix dimensions. Generation is further complicated by permutation symmetries that allow networks to model similar input-output functions while having widely different, unaligned parameterizations. In this work, we introduce Neural Network Diffusion Transformers (NNiTs), which generate weights in a width-agnostic manner by tokenizing weight matrices into patches and modeling them as locally structured fields. We establish that Graph HyperNetworks (GHNs) with a convolutional neural network (CNN) decoder structurally align the weight space, creating the local correlation necessary for patch-based processing. Focusing on MLPs, where permutation symmetry is especially apparent, NNiT generates fully functional networks across a range of architectures. Our approach jointly models discrete architecture tokens and continuous weight patches within a single sequence model. On ManiSkill3 robotics tasks, NNiT achieves >85% success on architecture topologies unseen during training, while baseline approaches fail to generalize.
- Abstract(参考訳): ニューラルネットワークパラメータの生成モデリングは、標準パラメータ表現が既知の重み行列次元に依存するため、しばしばアーキテクチャと結びついている。
ネットワークは、広く異なる非整合パラメータ化を持ちながら、同様の入力出力関数をモデル化できる置換対称性によってさらに複雑になる。
本研究では,ニューラルネットワーク拡散変換器(NNiTs)を導入し,重み行列をパッチにトークン化し,局所的に構造化されたフィールドとしてモデル化することにより,ウェイトを幅に依存しない方法で生成する。
我々は、畳み込みニューラルネットワーク(CNN)デコーダを備えたグラフハイパーネットワーク(GHN)が、重み空間を構造的に整列し、パッチベースの処理に必要な局所的相関を生成することを確立する。
置換対称性が特に顕著なMLPに着目して、NNiTは様々なアーキテクチャにわたって完全に機能的なネットワークを生成する。
我々のアプローチは、個別のアーキテクチャトークンと、単一シーケンスモデル内の連続的な重み付けパッチを共同でモデル化する。
ManiSkill3のロボティクスタスクでは、NNiTはトレーニング中に見つからないアーキテクチャトポロジで85%の成功を達成し、ベースラインアプローチは一般化に失敗する。
関連論文リスト
- SWAT-NN: Simultaneous Weights and Architecture Training for Neural Networks in a Latent Space [6.2241272327831485]
ニューラルネットワークのアーキテクチャと重みを同時に最適化するフレームワークを提案する。
我々のフレームワークはまず、アーキテクチャ情報とパラメトリック情報の両方を連続的な潜在空間に埋め込む、普遍的なマルチスケールオートエンコーダを訓練する。
データセットが与えられたら、埋め込み空間内の点をランダムに初期化し、勾配降下によって更新して最適なニューラルネットワークを得る。
論文 参考訳(メタデータ) (2025-06-09T22:22:37Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - A quatum inspired neural network for geometric modeling [14.214656118952178]
本稿では,MPSベースのメッセージパッシング戦略を提案する。
本手法は,多体関係を効果的にモデル化し,平均場近似を抑える。
これは幾何学的GNNに固有の標準メッセージパッシングおよびレイヤ集約モジュールをシームレスに置き換える。
論文 参考訳(メタデータ) (2024-01-03T15:59:35Z) - Equivariant Matrix Function Neural Networks [1.8717045355288808]
解析行列同変関数を通じて非局所的相互作用をパラメータ化する新しいアーキテクチャであるマトリックス関数ニューラルネットワーク(MFNs)を導入する。
MFNは量子系の複雑な非局所的な相互作用を捉えることができ、新しい最先端の力場への道を歩むことができる。
論文 参考訳(メタデータ) (2023-10-16T14:17:00Z) - Set-based Neural Network Encoding Without Weight Tying [91.37161634310819]
本稿では,ネットワーク特性予測のためのニューラルネットワーク重み符号化手法を提案する。
我々のアプローチは、混合アーキテクチャのモデル動物園でニューラルネットワークを符号化することができる。
ニューラルネットワークのプロパティ予測には,クロスデータセットとクロスアーキテクチャという,2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2023-05-26T04:34:28Z) - Neural Functional Transformers [99.98750156515437]
本稿では,ニューラルファンクショナルトランスフォーマー (NFT) と呼ばれる新しい変分同変量空間層を定義するために,アテンション機構を用いる。
NFTは重み空間の置換対称性を尊重し、注意の利点を取り入れ、複数の領域で顕著な成功を収めた。
Inr2Arrayは暗黙的ニューラル表現(INR)の重みから置換不変表現を計算する新しい方法である。
論文 参考訳(メタデータ) (2023-05-22T23:38:27Z) - Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。
隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。
実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:52:38Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。