論文の概要: MotherNet: A Foundational Hypernetwork for Tabular Classification
- arxiv url: http://arxiv.org/abs/2312.08598v1
- Date: Thu, 14 Dec 2023 01:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-16 00:22:56.304619
- Title: MotherNet: A Foundational Hypernetwork for Tabular Classification
- Title(参考訳): mothernet: 表分類のための基盤的ハイパーネットワーク
- Authors: Andreas M\"uller, Carlo Curino, Raghu Ramakrishnan
- Abstract要約: 我々は、数百万の分類タスクで訓練されたMotherNetと呼ばれるハイパーネットワークアーキテクチャを提案する。
MotherNetは、特定のデータセットのトレーニングを、単一のフォワードパスを通じてコンテキスト内学習に置き換える。
MotherNetが生成する子ネットワークは、コンテキスト内学習を使用して、小さなデータセット上で勾配降下を用いてトレーニングされたニューラルネットワークより優れています。
- 参考スコア(独自算出の注目度): 1.9643748953805937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Foundation Models is transforming machine learning across many
modalities (e.g., language, images, videos) with prompt engineering replacing
training in many settings. Recent work on tabular data (e.g., TabPFN) hints at
a similar opportunity to build Foundation Models for classification for
numerical data. In this paper, we go one step further and propose a
hypernetwork architecture that we call MotherNet, trained on millions of
classification tasks, that, once prompted with a never-seen-before training set
generates the weights of a trained ``child'' neural-network. Like other
Foundation Models, MotherNet replaces training on specific datasets with
in-context learning through a single forward pass. In contrast to existing
hypernetworks that were either task-specific or trained for relatively
constraint multi-task settings, MotherNet is trained to generate networks to
perform multiclass classification on arbitrary tabular datasets without any
dataset specific gradient descent.
The child network generated by MotherNet using in-context learning
outperforms neural networks trained using gradient descent on small datasets,
and is competitive with predictions by TabPFN and standard ML methods like
Gradient Boosting. Unlike a direct application of transformer models like
TabPFN, MotherNet generated networks are highly efficient at inference time.
This methodology opens up a new approach to building predictive models on
tabular data that is both efficient and robust, without any dataset-specific
training.
- Abstract(参考訳): Foundation Modelsの出現は、多くのモダリティ(言語、画像、ビデオなど)にわたって機械学習を変換し、多くの設定でトレーニングを即時に置き換える。
表データ(例えばtabpfn)に関する最近の研究は、数値データの分類のための基礎モデルを構築する同様の機会を示唆している。
本稿ではさらに一歩進めて,mothernetと呼ばれる,数百万の分類タスクに基づいてトレーニングされたハイパーネットワークアーキテクチャを提案する。
他のファウンデーションモデルと同様に、MotherNetは特定のデータセットのトレーニングを、単一のフォワードパスを通じてコンテキスト内学習に置き換える。
タスク固有の、あるいは比較的制約のあるマルチタスク設定のためにトレーニングされた既存のハイパーネットワークとは対照的に、mothernetは、データセット固有の勾配降下なしに任意の表型データセットでマルチクラス分類を行うネットワークを生成するように訓練されている。
MotherNetによって生成された子ネットワークは、コンテキスト内学習を使用して、小さなデータセット上で勾配降下を用いてトレーニングされたニューラルネットワークよりも優れており、TabPFNやGradient Boostingのような標準MLメソッドの予測と競合する。
TabPFNのようなトランスフォーマーモデルの直接適用とは異なり、MotherNetの生成したネットワークは推論時に非常に効率的である。
この方法論は、データセット固有のトレーニングを使わずに、効率的かつ堅牢な表データ上に予測モデルを構築するための、新たなアプローチを開く。
関連論文リスト
- Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - MixtureGrowth: Growing Neural Networks by Recombining Learned Parameters [19.358670728803336]
ほとんどのディープニューラルネットワークは、固定されたネットワークアーキテクチャの下でトレーニングされており、アーキテクチャの変更時に再トレーニングを必要とする。
これを回避するために、時間とともにランダムな重みを加えて小さなネットワークから成長させ、徐々にターゲットネットワークサイズを達成できる。
このナイーブなアプローチは、成長するプロセスに多くのノイズをもたらすため、実際には不足しています。
論文 参考訳(メタデータ) (2023-11-07T11:37:08Z) - StitchNet: Composing Neural Networks from Pre-Trained Fragments [3.638431342539701]
我々は,新しいニューラルネットワーク生成パラダイムであるStitchNetを提案する。
複数のトレーニング済みニューラルネットワークの断片を縫合する。
これらの断片を縫い合わせることで、従来の訓練されたネットワークに匹敵する精度でニューラルネットワークを作ることができることを示す。
論文 参考訳(メタデータ) (2023-01-05T08:02:30Z) - Meta-learning Pathologies from Radiology Reports using Variance Aware
Prototypical Networks [3.464871689508835]
本稿では,数ショットのテキスト分類のためのプロトタイプネットワークの簡易拡張を提案する。
我々の主な考えは、クラスプロトタイプをガウスに置き換え、サンプルを適切なクラスセントロイドの近くでクラスタ化することを奨励する正規化項を導入することである。
論文 参考訳(メタデータ) (2022-10-22T05:22:29Z) - A new hope for network model generalization [66.5377859849467]
ネットワークトラフィックダイナミクスのための機械学習モデルを一般化することは、失われた原因とみなされる傾向がある。
_Transformer_と呼ばれるMLアーキテクチャは、これまで想像不可能だった他のドメインでの一般化を可能にした。
パケットトレースからネットワークダイナミクスを学習するためのNTT(Network Traffic Transformer)を提案する。
論文 参考訳(メタデータ) (2022-07-12T21:16:38Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - The Lottery Ticket Hypothesis for Pre-trained BERT Networks [137.99328302234338]
自然言語処理(NLP)では、BERTのような巨大な事前学習モデルがトレーニングの標準出発点となっている。
並行して、抽選券仮説の研究により、NLPとコンピュータビジョンのモデルには、完全精度で個別にトレーニングできる小さなマッチングワークが含まれていることが示されている。
これらの観測と組み合わせて、トレーニング済みのBERTモデルにそのようなトレーニング可能なトランスファーブルワークが存在するかどうかを評価する。
論文 参考訳(メタデータ) (2020-07-23T19:35:39Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Learning across label confidence distributions using Filtered Transfer
Learning [0.44040106718326594]
本稿では,大きな可変信頼度データセットを持つノイズの多いデータシステムにおいて,予測能力を向上させるための伝達学習手法を提案する。
本稿では、複数の階層のデータ信頼度を個別のタスクとして定義する、FTL(Filted Transfer Learning)と呼ばれるディープニューラルネットワーク手法を提案する。
FTLを用いてラベル信頼度分布を段階的に学習すると、単一の信頼範囲でトレーニングされたディープニューラルネットワークモデルよりも高いパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2020-06-03T21:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。