論文の概要: Provable Multi-Task Representation Learning by Two-Layer ReLU Neural
Networks
- arxiv url: http://arxiv.org/abs/2307.06887v3
- Date: Tue, 13 Feb 2024 04:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:43:02.583213
- Title: Provable Multi-Task Representation Learning by Two-Layer ReLU Neural
Networks
- Title(参考訳): 2層ReLUニューラルネットワークによる確率的マルチタスク表現学習
- Authors: Liam Collins, Hamed Hassani, Mahdi Soltanolkotabi, Aryan Mokhtari,
Sanjay Shakkottai
- Abstract要約: 本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
- 参考スコア(独自算出の注目度): 74.4401897731544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An increasingly popular machine learning paradigm is to pretrain a neural
network (NN) on many tasks offline, then adapt it to downstream tasks, often by
re-training only the last linear layer of the network. This approach yields
strong downstream performance in a variety of contexts, demonstrating that
multitask pretraining leads to effective feature learning. Although several
recent theoretical studies have shown that shallow NNs learn meaningful
features when either (i) they are trained on a {\em single} task or (ii) they
are {\em linear}, very little is known about the closer-to-practice case of
{\em nonlinear} NNs trained on {\em multiple} tasks. In this work, we present
the first results proving that feature learning occurs during training with a
nonlinear model on multiple tasks. Our key insight is that multi-task
pretraining induces a pseudo-contrastive loss that favors representations that
align points that typically have the same label across tasks. Using this
observation, we show that when the tasks are binary classification tasks with
labels depending on the projection of the data onto an $r$-dimensional subspace
within the $d\gg r$-dimensional input space, a simple gradient-based multitask
learning algorithm on a two-layer ReLU NN recovers this projection, allowing
for generalization to downstream tasks with sample and neuron complexity
independent of $d$. In contrast, we show that with high probability over the
draw of a single task, training on this single task cannot guarantee to learn
all $r$ ground-truth features.
- Abstract(参考訳): ますます普及している機械学習のパラダイムは、多くのタスクでニューラルネットワーク(nn)をオフラインで事前トレーニングし、ダウンストリームタスクに適応させることである。
このアプローチは様々な文脈において強力なダウンストリーム性能をもたらし、マルチタスク事前学習が効果的な特徴学習につながることを示す。
最近のいくつかの理論的研究により、浅いNNはいずれかが有意義な特徴を学ぶことが示されている。
(i)"em single"タスクで訓練されていること、または
(ii)それらは線形であり、"em multiple} タスクで訓練された "em nonlinear} nns のより近い実践的な場合についてはほとんど知られていない。
本研究では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちの重要な洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
この結果から,2層 ReLU NN 上の単純な勾配に基づくマルチタスク学習アルゴリズムにより,データを$d\gg r$-dimensional 入力空間内の$r$-dimensional 部分空間に投影した値に依存したラベル付きバイナリ分類タスクが,このプロジェクションを復元し,サンプルとニューロンの複雑さを$d$と独立にダウンストリームタスクに一般化できることを示した。
対照的に、1つのタスクの引き分けよりも高い確率で、この1つのタスクのトレーニングでは、$r$の接地的特徴をすべて学習することは保証できない。
関連論文リスト
- Negotiated Representations to Prevent Forgetting in Machine Learning
Applications [0.0]
破滅的な忘れは、機械学習の分野で重要な課題である。
本稿では,機械学習アプリケーションにおける破滅的忘れを防止する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-11-30T22:43:50Z) - ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。
また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:11:13Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Representation Learning Beyond Linear Prediction Functions [33.94130046391917]
そこで本研究では,音源タスクと対象タスクが線形関数以外の異なる予測関数空間を使用する場合,多様性が達成可能であることを示す。
一般関数クラスの場合、エローダ次元は多様性に必要なタスクの数に低い境界を与える。
論文 参考訳(メタデータ) (2021-05-31T14:21:52Z) - Beneficial Perturbation Network for designing general adaptive
artificial intelligence systems [14.226973149346886]
我々は、動的状況に対応するために、ネットワーク外、タスク依存バイアスユニットを付加した新しいタイプのディープニューラルネットワークを提案する。
我々のアプローチはメモリ効率が高く、パラメータ効率が高く、多くのタスクに対応でき、様々なタスクやドメインで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-09-27T01:28:10Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Deep Multi-Task Augmented Feature Learning via Hierarchical Graph Neural
Network [4.121467410954028]
深層マルチタスク学習のための拡張機能を学習するための階層型グラフニューラルネットワークを提案する。
実世界のデータステスの実験では、この戦略を使用する際の大幅なパフォーマンス向上が示されている。
論文 参考訳(メタデータ) (2020-02-12T06:02:20Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。