論文の概要: MotherNet: Fast Training and Inference via Hyper-Network Transformers
- arxiv url: http://arxiv.org/abs/2312.08598v2
- Date: Fri, 09 May 2025 16:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:09.911312
- Title: MotherNet: Fast Training and Inference via Hyper-Network Transformers
- Title(参考訳): MotherNet: ハイパーネットワークトランスによる高速トレーニングと推論
- Authors: Andreas Müller, Carlo Curino, Raghu Ramakrishnan,
- Abstract要約: 本稿では,合成分類タスクを訓練したハイパーネットワークアーキテクチャであるMotherNetを提案する。
MotherNetは、データセット固有の勾配降下なしに、任意のデータセットのマルチクラス分類のためのモデルを作成することができる。
TabPFNの直接適用とは異なり、MotherNet生成ネットワークは推論時に非常に効率的である。
- 参考スコア(独自算出の注目度): 2.61143517707899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are transforming machine learning across many modalities, with in-context learning replacing classical model training. Recent work on tabular data hints at a similar opportunity to build foundation models for classification for numerical data. However, existing meta-learning approaches can not compete with tree-based methods in terms of inference time. In this paper, we propose MotherNet, a hypernetwork architecture trained on synthetic classification tasks that, once prompted with a never-seen-before training set generates the weights of a trained ``child'' neural-network by in-context learning using a single forward pass. In contrast to most existing hypernetworks that are usually trained for relatively constrained multi-task settings, MotherNet can create models for multiclass classification on arbitrary tabular datasets without any dataset specific gradient descent. The child network generated by MotherNet outperforms neural networks trained using gradient descent on small datasets, and is comparable to predictions by TabPFN and standard ML methods like Gradient Boosting. Unlike a direct application of TabPFN, MotherNet generated networks are highly efficient at inference time. We also demonstrate that HyperFast is unable to perform effective in-context learning on small datasets, and heavily relies on dataset specific fine-tuning and hyper-parameter tuning, while MotherNet requires no fine-tuning or per-dataset hyper-parameters.
- Abstract(参考訳): ファンデーションモデルは、古典的なモデルトレーニングの代わりにコンテキスト内学習によって、多くのモダリティにわたって機械学習を変換している。
グラフデータに関する最近の研究は、数値データの分類のための基礎モデルを構築するのと同じような機会を示唆している。
しかし、既存のメタラーニングアプローチは、推論時間の観点からはツリーベースの手法と競合することができない。
本稿では,1つのフォワードパスを用いた文脈内学習により,学習した「子」ニューラルネットの重みを生成できる,合成分類タスクを訓練したハイパーネットワークアーキテクチャであるMotherNetを提案する。
通常、比較的制約のあるマルチタスク設定のためにトレーニングされている既存のハイパーネットワークとは対照的に、MotherNetは、データセット固有の勾配降下なしに、任意のタブ形式のデータセット上のマルチクラス分類のためのモデルを作成することができる。
MotherNetが生成する子ネットワークは、小さなデータセットの勾配勾配を使ってトレーニングされたニューラルネットワークよりも優れており、TabPFNの予測とGradient Boostingのような標準的なMLメソッドに匹敵する。
TabPFNの直接適用とは異なり、MotherNet生成ネットワークは推論時に非常に効率的である。
また、HyperFastは、小さなデータセット上で効果的なコンテキスト内学習を行うことができず、データセット固有の微調整とハイパーパラメータチューニングに大きく依存しているのに対し、MotherNetは微調整やデータセットごとのハイパーパラメータを必要としないことを実証した。
関連論文リスト
- Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - MixtureGrowth: Growing Neural Networks by Recombining Learned Parameters [19.358670728803336]
ほとんどのディープニューラルネットワークは、固定されたネットワークアーキテクチャの下でトレーニングされており、アーキテクチャの変更時に再トレーニングを必要とする。
これを回避するために、時間とともにランダムな重みを加えて小さなネットワークから成長させ、徐々にターゲットネットワークサイズを達成できる。
このナイーブなアプローチは、成長するプロセスに多くのノイズをもたらすため、実際には不足しています。
論文 参考訳(メタデータ) (2023-11-07T11:37:08Z) - StitchNet: Composing Neural Networks from Pre-Trained Fragments [3.638431342539701]
我々は,新しいニューラルネットワーク生成パラダイムであるStitchNetを提案する。
複数のトレーニング済みニューラルネットワークの断片を縫合する。
これらの断片を縫い合わせることで、従来の訓練されたネットワークに匹敵する精度でニューラルネットワークを作ることができることを示す。
論文 参考訳(メタデータ) (2023-01-05T08:02:30Z) - Meta-learning Pathologies from Radiology Reports using Variance Aware
Prototypical Networks [3.464871689508835]
本稿では,数ショットのテキスト分類のためのプロトタイプネットワークの簡易拡張を提案する。
我々の主な考えは、クラスプロトタイプをガウスに置き換え、サンプルを適切なクラスセントロイドの近くでクラスタ化することを奨励する正規化項を導入することである。
論文 参考訳(メタデータ) (2022-10-22T05:22:29Z) - A new hope for network model generalization [66.5377859849467]
ネットワークトラフィックダイナミクスのための機械学習モデルを一般化することは、失われた原因とみなされる傾向がある。
_Transformer_と呼ばれるMLアーキテクチャは、これまで想像不可能だった他のドメインでの一般化を可能にした。
パケットトレースからネットワークダイナミクスを学習するためのNTT(Network Traffic Transformer)を提案する。
論文 参考訳(メタデータ) (2022-07-12T21:16:38Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Learning across label confidence distributions using Filtered Transfer
Learning [0.44040106718326594]
本稿では,大きな可変信頼度データセットを持つノイズの多いデータシステムにおいて,予測能力を向上させるための伝達学習手法を提案する。
本稿では、複数の階層のデータ信頼度を個別のタスクとして定義する、FTL(Filted Transfer Learning)と呼ばれるディープニューラルネットワーク手法を提案する。
FTLを用いてラベル信頼度分布を段階的に学習すると、単一の信頼範囲でトレーニングされたディープニューラルネットワークモデルよりも高いパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2020-06-03T21:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。