論文の概要: Provable Multi-Task Representation Learning by Two-Layer ReLU Neural
Networks
- arxiv url: http://arxiv.org/abs/2307.06887v2
- Date: Mon, 17 Jul 2023 23:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 18:10:25.309949
- Title: Provable Multi-Task Representation Learning by Two-Layer ReLU Neural
Networks
- Title(参考訳): 2層ReLUニューラルネットワークによる確率的マルチタスク表現学習
- Authors: Liam Collins, Hamed Hassani, Mahdi Soltanolkotabi, Aryan Mokhtari,
Sanjay Shakkottai
- Abstract要約: 特徴学習、すなわちデータの意味的な表現を抽出することは、勾配降下で訓練されたニューラルネットワークの実践的な成功に不可欠である。
最近の理論的研究により、勾配に基づく手法で1つのタスクに最適化された浅層ニューラルネットワークが有意義な特徴を学習できることが示されている。
本稿では,非線形モデルを用いたマルチタスク設定において,特徴学習の初歩的な結果を示す。
- 参考スコア(独自算出の注目度): 73.46352951208614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature learning, i.e. extracting meaningful representations of data, is
quintessential to the practical success of neural networks trained with
gradient descent, yet it is notoriously difficult to explain how and why it
occurs. Recent theoretical studies have shown that shallow neural networks
optimized on a single task with gradient-based methods can learn meaningful
features, extending our understanding beyond the neural tangent kernel or
random feature regime in which negligible feature learning occurs. But in
practice, neural networks are increasingly often trained on {\em many} tasks
simultaneously with differing loss functions, and these prior analyses do not
generalize to such settings. In the multi-task learning setting, a variety of
studies have shown effective feature learning by simple linear models. However,
multi-task learning via {\em nonlinear} models, arguably the most common
learning paradigm in practice, remains largely mysterious. In this work, we
present the first results proving feature learning occurs in a multi-task
setting with a nonlinear model. We show that when the tasks are binary
classification problems with labels depending on only $r$ directions within the
ambient $d\gg r$-dimensional input space, executing a simple gradient-based
multitask learning algorithm on a two-layer ReLU neural network learns the
ground-truth $r$ directions. In particular, any downstream task on the $r$
ground-truth coordinates can be solved by learning a linear classifier with
sample and neuron complexity independent of the ambient dimension $d$, while a
random feature model requires exponential complexity in $d$ for such a
guarantee.
- Abstract(参考訳): 特徴学習(すなわち、データの意味のある表現を抽出する)は、勾配降下で訓練されたニューラルネットワークの実用的成功に必須であるが、その発生方法と理由を説明するのは非常に困難である。
最近の理論的研究により、勾配に基づく手法で1つのタスクに最適化された浅層ニューラルネットワークが有意義な特徴を学習できることが示されている。
しかし、実際には、ニューラルネットワークは損失関数の異なるタスクと同時に多くのタスクで訓練されることが多く、これらの以前の分析はそのような設定に一般化しない。
マルチタスク学習では、単純な線形モデルによる効果的な特徴学習が様々な研究で示されている。
しかし、実際には最も一般的な学習パラダイムである {\em nonlinear} モデルによるマルチタスク学習はほとんど謎のままである。
本研究では, 非線形モデルを用いたマルチタスク環境において, 特徴学習を行う最初の結果を示す。
その結果,2層reluニューラルネットワーク上では,2層ニューラルネットワークを用いた簡易な勾配型マルチタスク学習アルゴリズムが,2層reluニューラルネットワークによって学習されることがわかった。
特に、r$ 地上座標上のダウンストリームタスクは、環境次元 $d$ とは無関係にサンプルとニューロン複雑性を持つ線形分類器を学習することで解決できるが、ランダム特徴モデルでは、そのような保証のために$d$ の指数的複雑性を必要とする。
関連論文リスト
- Negotiated Representations to Prevent Forgetting in Machine Learning
Applications [0.0]
破滅的な忘れは、機械学習の分野で重要な課題である。
本稿では,機械学習アプリケーションにおける破滅的忘れを防止する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-11-30T22:43:50Z) - ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。
また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:11:13Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。
タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。
これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文 参考訳(メタデータ) (2022-04-16T00:56:12Z) - Representation Learning Beyond Linear Prediction Functions [33.94130046391917]
そこで本研究では,音源タスクと対象タスクが線形関数以外の異なる予測関数空間を使用する場合,多様性が達成可能であることを示す。
一般関数クラスの場合、エローダ次元は多様性に必要なタスクの数に低い境界を与える。
論文 参考訳(メタデータ) (2021-05-31T14:21:52Z) - Beneficial Perturbation Network for designing general adaptive
artificial intelligence systems [14.226973149346886]
我々は、動的状況に対応するために、ネットワーク外、タスク依存バイアスユニットを付加した新しいタイプのディープニューラルネットワークを提案する。
我々のアプローチはメモリ効率が高く、パラメータ効率が高く、多くのタスクに対応でき、様々なタスクやドメインで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-09-27T01:28:10Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Deep Multi-Task Augmented Feature Learning via Hierarchical Graph Neural
Network [4.121467410954028]
深層マルチタスク学習のための拡張機能を学習するための階層型グラフニューラルネットワークを提案する。
実世界のデータステスの実験では、この戦略を使用する際の大幅なパフォーマンス向上が示されている。
論文 参考訳(メタデータ) (2020-02-12T06:02:20Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。