論文の概要: MotherNet: Fast Training and Inference via Hyper-Network Transformers
- arxiv url: http://arxiv.org/abs/2312.08598v2
- Date: Fri, 09 May 2025 16:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:09.911312
- Title: MotherNet: Fast Training and Inference via Hyper-Network Transformers
- Title(参考訳): MotherNet: ハイパーネットワークトランスによる高速トレーニングと推論
- Authors: Andreas Müller, Carlo Curino, Raghu Ramakrishnan,
- Abstract要約: 本稿では,合成分類タスクを訓練したハイパーネットワークアーキテクチャであるMotherNetを提案する。
MotherNetは、データセット固有の勾配降下なしに、任意のデータセットのマルチクラス分類のためのモデルを作成することができる。
TabPFNの直接適用とは異なり、MotherNet生成ネットワークは推論時に非常に効率的である。
- 参考スコア(独自算出の注目度): 2.61143517707899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are transforming machine learning across many modalities, with in-context learning replacing classical model training. Recent work on tabular data hints at a similar opportunity to build foundation models for classification for numerical data. However, existing meta-learning approaches can not compete with tree-based methods in terms of inference time. In this paper, we propose MotherNet, a hypernetwork architecture trained on synthetic classification tasks that, once prompted with a never-seen-before training set generates the weights of a trained ``child'' neural-network by in-context learning using a single forward pass. In contrast to most existing hypernetworks that are usually trained for relatively constrained multi-task settings, MotherNet can create models for multiclass classification on arbitrary tabular datasets without any dataset specific gradient descent. The child network generated by MotherNet outperforms neural networks trained using gradient descent on small datasets, and is comparable to predictions by TabPFN and standard ML methods like Gradient Boosting. Unlike a direct application of TabPFN, MotherNet generated networks are highly efficient at inference time. We also demonstrate that HyperFast is unable to perform effective in-context learning on small datasets, and heavily relies on dataset specific fine-tuning and hyper-parameter tuning, while MotherNet requires no fine-tuning or per-dataset hyper-parameters.
- Abstract(参考訳): ファンデーションモデルは、古典的なモデルトレーニングの代わりにコンテキスト内学習によって、多くのモダリティにわたって機械学習を変換している。
グラフデータに関する最近の研究は、数値データの分類のための基礎モデルを構築するのと同じような機会を示唆している。
しかし、既存のメタラーニングアプローチは、推論時間の観点からはツリーベースの手法と競合することができない。
本稿では,1つのフォワードパスを用いた文脈内学習により,学習した「子」ニューラルネットの重みを生成できる,合成分類タスクを訓練したハイパーネットワークアーキテクチャであるMotherNetを提案する。
通常、比較的制約のあるマルチタスク設定のためにトレーニングされている既存のハイパーネットワークとは対照的に、MotherNetは、データセット固有の勾配降下なしに、任意のタブ形式のデータセット上のマルチクラス分類のためのモデルを作成することができる。
MotherNetが生成する子ネットワークは、小さなデータセットの勾配勾配を使ってトレーニングされたニューラルネットワークよりも優れており、TabPFNの予測とGradient Boostingのような標準的なMLメソッドに匹敵する。
TabPFNの直接適用とは異なり、MotherNet生成ネットワークは推論時に非常に効率的である。
また、HyperFastは、小さなデータセット上で効果的なコンテキスト内学習を行うことができず、データセット固有の微調整とハイパーパラメータチューニングに大きく依存しているのに対し、MotherNetは微調整やデータセットごとのハイパーパラメータを必要としないことを実証した。
関連論文リスト
- Bridging Neural Networks and Dynamic Time Warping for Adaptive Time Series Classification [2.443957114877221]
コールドスタート条件に適応し,ラベル付きデータでトレーニング可能な汎用モデルを開発した。
ニューラルネットワークとして、DTW固有の解釈可能性を維持しながら、十分なラベル付きデータが利用可能であれば、トレーニング可能である。
論文 参考訳(メタデータ) (2025-07-13T23:15:21Z) - Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - A Pipeline of Augmentation and Sequence Embedding for Classification of Imbalanced Network Traffic [0.0]
本稿では,頑健で正確な埋め込み手法を用いて,データセットのバランスと分類を行うパイプラインを提案する。
提案した拡張パイプラインとFS-Embeddingを組み合わせることで収束速度が向上し,モデルパラメータの数が大幅に減少することを示す。
論文 参考訳(メタデータ) (2025-02-26T07:55:24Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - MixtureGrowth: Growing Neural Networks by Recombining Learned Parameters [19.358670728803336]
ほとんどのディープニューラルネットワークは、固定されたネットワークアーキテクチャの下でトレーニングされており、アーキテクチャの変更時に再トレーニングを必要とする。
これを回避するために、時間とともにランダムな重みを加えて小さなネットワークから成長させ、徐々にターゲットネットワークサイズを達成できる。
このナイーブなアプローチは、成長するプロセスに多くのノイズをもたらすため、実際には不足しています。
論文 参考訳(メタデータ) (2023-11-07T11:37:08Z) - StitchNet: Composing Neural Networks from Pre-Trained Fragments [3.638431342539701]
我々は,新しいニューラルネットワーク生成パラダイムであるStitchNetを提案する。
複数のトレーニング済みニューラルネットワークの断片を縫合する。
これらの断片を縫い合わせることで、従来の訓練されたネットワークに匹敵する精度でニューラルネットワークを作ることができることを示す。
論文 参考訳(メタデータ) (2023-01-05T08:02:30Z) - Meta-learning Pathologies from Radiology Reports using Variance Aware
Prototypical Networks [3.464871689508835]
本稿では,数ショットのテキスト分類のためのプロトタイプネットワークの簡易拡張を提案する。
我々の主な考えは、クラスプロトタイプをガウスに置き換え、サンプルを適切なクラスセントロイドの近くでクラスタ化することを奨励する正規化項を導入することである。
論文 参考訳(メタデータ) (2022-10-22T05:22:29Z) - A new hope for network model generalization [66.5377859849467]
ネットワークトラフィックダイナミクスのための機械学習モデルを一般化することは、失われた原因とみなされる傾向がある。
_Transformer_と呼ばれるMLアーキテクチャは、これまで想像不可能だった他のドメインでの一般化を可能にした。
パケットトレースからネットワークダイナミクスを学習するためのNTT(Network Traffic Transformer)を提案する。
論文 参考訳(メタデータ) (2022-07-12T21:16:38Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - Task-Adaptive Neural Network Retrieval with Meta-Contrastive Learning [34.27089256930098]
本稿では,与えられたタスクに対して最適な事前学習ネットワークを検索するニューラルネットワーク検索手法を提案する。
データセットとネットワークとの類似性を最大化するために、コントラスト損失を伴うクロスモーダルな潜在空間をメタラーニングすることによって、このフレームワークを訓練する。
提案手法の有効性を,既存のNASベースラインに対して10個の実世界のデータセット上で検証する。
論文 参考訳(メタデータ) (2021-03-02T06:30:51Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - AgEBO-Tabular: Joint Neural Architecture and Hyperparameter Search with
Autotuned Data-Parallel Training for Tabular Data [11.552769149674544]
大規模データセットに対する高性能な予測モデルの開発は難しい課題である。
最近の自動機械学習(AutoML)は、予測モデル開発を自動化するための有望なアプローチとして現れている。
我々は,老化進化(AgE)とニューラルアーキテクチャ空間を探索する並列NAS法を組み合わせたAgEBO-Tabularを開発した。
論文 参考訳(メタデータ) (2020-10-30T16:28:48Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Learning across label confidence distributions using Filtered Transfer
Learning [0.44040106718326594]
本稿では,大きな可変信頼度データセットを持つノイズの多いデータシステムにおいて,予測能力を向上させるための伝達学習手法を提案する。
本稿では、複数の階層のデータ信頼度を個別のタスクとして定義する、FTL(Filted Transfer Learning)と呼ばれるディープニューラルネットワーク手法を提案する。
FTLを用いてラベル信頼度分布を段階的に学習すると、単一の信頼範囲でトレーニングされたディープニューラルネットワークモデルよりも高いパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2020-06-03T21:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。