論文の概要: Foundation Models Secretly Understand Neural Network Weights: Enhancing Hypernetwork Architectures with Foundation Models
- arxiv url: http://arxiv.org/abs/2503.00838v1
- Date: Sun, 02 Mar 2025 10:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:19.524451
- Title: Foundation Models Secretly Understand Neural Network Weights: Enhancing Hypernetwork Architectures with Foundation Models
- Title(参考訳): ニューラルネットワークの重みを秘かに理解する基盤モデル - 基盤モデルによるハイパーネットワークアーキテクチャの強化
- Authors: Jeffrey Gu, Serena Yeung-Levy,
- Abstract要約: 基盤モデルはTransformerベースのアーキテクチャでハイパーネットワークをどのように改善するかを示す。
我々は、一般化可能なINRタスクのレンズを通して、ハイパーネットの基盤モデルの利点を実証分析する。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License:
- Abstract: Large pre-trained models, or foundation models, have shown impressive performance when adapted to a variety of downstream tasks, often out-performing specialized models. Hypernetworks, neural networks that generate some or all of the parameters of another neural network, have become an increasingly important technique for conditioning and generalizing implicit neural representations (INRs), which represent signals or objects such as audio or 3D shapes using a neural network. However, despite the potential benefits of incorporating foundation models in hypernetwork methods, this research direction has not been investigated, likely due to the dissimilarity of the weight generation task with other visual tasks. To address this gap, we (1) show how foundation models can improve hypernetworks with Transformer-based architectures, (2) provide an empirical analysis of the benefits of foundation models for hypernetworks through the lens of the generalizable INR task, showing that leveraging foundation models improves performance, generalizability, and data efficiency across a variety of algorithms and modalities. We also provide further analysis in examining the design space of foundation model-based hypernetworks, including examining the choice of foundation models, algorithms, and the effect of scaling foundation models.
- Abstract(参考訳): 大規模な事前訓練モデル(または基礎モデル)は、様々な下流のタスクに適応する際、しばしば優れたパフォーマンスを示す。
他のニューラルネットワークのパラメータの一部あるいは全部を生成するニューラルネットワークであるHypernetworksは、暗黙のニューラルネットワーク表現(INR)の条件付けと一般化において、ますます重要な技術になりつつある。
しかし、この研究の方向性は、ハイパーネットワーク手法に基礎モデルを組み込むことの潜在的な利点にもかかわらず、おそらく他の視覚的タスクと重み生成タスクの相違から検討されていない。
このギャップに対処するため,(1)トランスフォーマーアーキテクチャを用いて基盤モデルがハイパーネットワークをいかに改善できるかを示すとともに,(2)一般化可能なINRタスクのレンズを通して,基盤モデルによるハイパーネットワークの利点の実証分析を行い,基礎モデルを活用することにより,様々なアルゴリズムやモダリティにおける性能,一般化可能性,データ効率が向上することを示す。
また,基礎モデルに基づくハイパーネットの設計空間を考察し,基礎モデルの選択,アルゴリズム,および基礎モデルのスケーリングの効果について検討する。
関連論文リスト
- Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。
我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-02-16T23:13:55Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - A method for quantifying the generalization capabilities of generative models for solving Ising models [5.699467840225041]
我々は、ハミング距離正規化器を用いて、VANと組み合わせた様々なネットワークアーキテクチャの一般化能力を定量化する。
フィードフォワードニューラルネットワーク,リカレントニューラルネットワーク,グラフニューラルネットワークなど,VANと組み合わせたネットワークアーキテクチャの数値実験を行う。
本手法は,大規模Isingモデルの解法において,最適なネットワークアーキテクチャを探索するニューラルネットワーク探索の分野を支援する上で,非常に重要である。
論文 参考訳(メタデータ) (2024-05-06T12:58:48Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Generalization and Estimation Error Bounds for Model-based Neural
Networks [78.88759757988761]
スパースリカバリのためのモデルベースネットワークの一般化能力は、通常のReLUネットワークよりも優れていることを示す。
我々は,高一般化を保証したモデルベースネットワークの構築を可能にする実用的な設計規則を導出する。
論文 参考訳(メタデータ) (2023-04-19T16:39:44Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - The Self-Simplifying Machine: Exploiting the Structure of Piecewise
Linear Neural Networks to Create Interpretable Models [0.0]
本稿では,分類タスクに対するPiecewise Linear Neural Networksの単純化と解釈性向上のための新しい手法を提案する。
我々の手法には、トレーニングを伴わずに、訓練された深層ネットワークを使用して、良好なパフォーマンスと単一隠れ層ネットワークを生成する方法が含まれる。
これらの手法を用いて,モデル性能の予備的研究およびウェルズ・ファーゴのホームレンディングデータセットのケーススタディを行う。
論文 参考訳(メタデータ) (2020-12-02T16:02:14Z) - Learning Queuing Networks by Recurrent Neural Networks [0.0]
データから性能モデルを導出する機械学習手法を提案する。
我々は、通常の微分方程式のコンパクトな系の観点から、それらの平均力学の決定論的近似を利用する。
これにより、ニューラルネットワークの解釈可能な構造が可能になり、システム測定からトレーニングしてホワイトボックスパラメータ化モデルを生成することができる。
論文 参考訳(メタデータ) (2020-02-25T10:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。