論文の概要: Deep Multi-Task Learning Has Low Amortized Intrinsic Dimensionality
- arxiv url: http://arxiv.org/abs/2501.19067v1
- Date: Fri, 31 Jan 2025 11:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:29.625496
- Title: Deep Multi-Task Learning Has Low Amortized Intrinsic Dimensionality
- Title(参考訳): 深層マルチタスク学習は固有次元が低い
- Authors: Hossein Zakerinia, Dorsa Ghobadi, Christoph H. Lampert,
- Abstract要約: 低次元空間において,マルチタスクネットワークを直接パラメータ化する手法を提案する。
高い精度のマルチタスクソリューションは、シングルタスク学習が必要とするものよりも、本質的な次元でより小さく見つけることができることを示す。
- 参考スコア(独自算出の注目度): 15.621144215664769
- License:
- Abstract: Deep learning methods are known to generalize well from training to future data, even in an overparametrized regime, where they could easily overfit. One explanation for this phenomenon is that even when their *ambient dimensionality*, (i.e. the number of parameters) is large, the models' *intrinsic dimensionality* is small, i.e. their learning takes place in a small subspace of all possible weight configurations. In this work, we confirm this phenomenon in the setting of *deep multi-task learning*. We introduce a method to parametrize multi-task network directly in the low-dimensional space, facilitated by the use of *random expansions* techniques. We then show that high-accuracy multi-task solutions can be found with much smaller intrinsic dimensionality (fewer free parameters) than what single-task learning requires. Subsequently, we show that the low-dimensional representations in combination with *weight compression* and *PAC-Bayesian* reasoning lead to the first *non-vacuous generalization bounds* for deep multi-task networks.
- Abstract(参考訳): ディープラーニングの手法は、過度にパラメータ化された状態であっても、トレーニングから将来のデータまで十分に一般化できることが知られている。
この現象の1つの説明は、それらの *ambient dimensionality*(すなわちパラメータの数)が大きければ、モデルの *intrinsic dimensionality* は小さく、すなわち、それらの学習は全ての可能な重み設定の小さな部分空間で行われるということである。
本稿では,この現象を,*深層マルチタスク学習の設定において確認する。
本稿では,低次元空間におけるマルチタスクネットワークを直接パラメータ化する手法を提案する。
次に、単一タスク学習に必要なものよりも、本質的な次元性(自由パラメータよりもはるかに小さい)で、高精度なマルチタスク解を見つけることができることを示す。
その後、*重圧縮* と *PAC-Bayesian* の推論を組み合わせた低次元表現が、深層マルチタスクネットワークに対する最初の *非空一般化境界* をもたらすことを示す。
関連論文リスト
- Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - The Law of Parsimony in Gradient Descent for Learning Deep Linear
Networks [34.85235641812005]
我々は、データが低次元構造を持つ場合、学習力学において驚くべき「パシモニーの法則」を明らかにする。
この学習力学の単純さは、効率的なトレーニングとディープネットワークのより良い理解の両方に重大な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-06-01T21:24:53Z) - Fine-tuning Happens in Tiny Subspaces: Exploring Intrinsic Task-specific
Subspaces of Pre-trained Language Models [16.28794184086409]
事前訓練された言語モデル(PLM)は過度にパラメータ化され、かなりの冗長性を持つことが知られている。
本稿では,タスク固有の部分空間の発見という新たな視点から,再パラメータ化と微調整の問題を考察する。
鍵となる発見は、PLMは少数の自由パラメータを持つ部分空間で効果的に微調整できることである。
論文 参考訳(メタデータ) (2023-05-27T11:16:26Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Infinite wide (finite depth) Neural Networks benefit from multi-task
learning unlike shallow Gaussian Processes -- an exact quantitative
macroscopic characterization [0.0]
パラメータのl2正規化に最適化された少なくとも1つの隠蔽層を持つReLUニューラルネットワーク(NN)は、表現学習によるマルチタスク学習を強制する。
これは、ワイド(ReLU)-NNが制限幅から無限の範囲でマルチタスク学習の恩恵を受ける能力を緩めるという文献で議論された他の複数の理想的な設定とは対照的である。
論文 参考訳(メタデータ) (2021-12-31T18:03:46Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - Exploring the Common Principal Subspace of Deep Features in Neural
Networks [50.37178960258464]
我々は、同じデータセットでトレーニングされた異なるディープニューラルネットワーク(DNN)が、潜在空間において共通の主部分空間を共有することを発見した。
具体的には、DNNで学んだ深い機能の主部分空間を表すために、$mathcalP$-vectorを新たに設計する。
異なるアルゴリズム/アーキテクチャで訓練された2つのDNNの比較では、小さな角度(コサインが1.0ドルに近い)が見つかっている。
論文 参考訳(メタデータ) (2021-10-06T15:48:32Z) - Perspective: A Phase Diagram for Deep Learning unifying Jamming, Feature
Learning and Lazy Training [4.318555434063275]
ディープラーニングアルゴリズムは、画像認識やgoプレイなど、さまざまなタスクにおける技術革命の責任を負う。
しかし、なぜ働くのかは分かっていない。
最終的に、彼らは高い次元に横たわるデータを分類することに成功しました。
我々は、異なる学習体制をフェーズダイアグラムにまとめることができると論じる。
論文 参考訳(メタデータ) (2020-12-30T11:00:36Z) - ATOM3D: Tasks On Molecules in Three Dimensions [91.72138447636769]
近年、深層ニューラルネットワークが注目されている。
本稿では,生物分子のいくつかの重要なクラスにまたがる新しいデータセットと既存のデータセットのコレクションであるATOM3Dを紹介する。
これらのタスクごとに3次元の分子学習ネットワークを開発し、パフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2020-12-07T20:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。