論文の概要: Alternate Training of Shared and Task-Specific Parameters for Multi-Task
Neural Networks
- arxiv url: http://arxiv.org/abs/2312.16340v1
- Date: Tue, 26 Dec 2023 21:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 19:49:04.440139
- Title: Alternate Training of Shared and Task-Specific Parameters for Multi-Task
Neural Networks
- Title(参考訳): マルチタスクニューラルネットワークにおける共有パラメータとタスクパラメータの交互学習
- Authors: Stefania Bellavia, Francesco Della Santa, Alessandra Papini
- Abstract要約: 本稿では,ハードパラメータ共有マルチタスクニューラルネットワーク(MTNN)のための新しい代替トレーニング手法を提案する。
提案した代替トレーニング手法は、モデルのマルチヘッドアーキテクチャを利用して、共有およびタスク固有の重みを交互に更新する。
実証実験では、遅延オーバーフィッティング、予測の改善、計算要求の削減が示されている。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces novel alternate training procedures for hard-parameter
sharing Multi-Task Neural Networks (MTNNs). Traditional MTNN training faces
challenges in managing conflicting loss gradients, often yielding sub-optimal
performance. The proposed alternate training method updates shared and
task-specific weights alternately, exploiting the multi-head architecture of
the model. This approach reduces computational costs, enhances training
regularization, and improves generalization. Convergence properties similar to
those of the classical stochastic gradient method are established. Empirical
experiments demonstrate delayed overfitting, improved prediction, and reduced
computational demands. In summary, our alternate training procedures offer a
promising advancement for the training of hard-parameter sharing MTNNs.
- Abstract(参考訳): 本稿では,マルチタスクニューラルネットワーク(MTNN)のための新しい訓練手法を提案する。
従来のMTNNトレーニングは、競合する損失勾配を管理する際の課題に直面し、しばしば準最適パフォーマンスをもたらす。
提案手法では,共有とタスク固有の重みを交互に更新し,モデルのマルチヘッドアーキテクチャを活用する。
このアプローチは計算コストを削減し、トレーニング正規化を強化し、一般化を改善する。
古典的確率勾配法と同様の収束特性が確立される。
実証実験では、遅延オーバーフィッティング、予測の改善、計算要求の削減が示されている。
まとめると、我々の代替トレーニング手順は、ハードパラメータ共有MTNNのトレーニングに有望な進歩をもたらす。
関連論文リスト
- An Augmented Backward-Corrected Projector Splitting Integrator for Dynamical Low-Rank Training [47.69709732622765]
必要なQR分解数を削減できる新しい低ランクトレーニング手法を提案する。
提案手法は,プロジェクタ分割方式に拡張ステップを組み込むことにより,局所最適解への収束を確保する。
論文 参考訳(メタデータ) (2025-02-05T09:03:50Z) - Optimizing Dense Visual Predictions Through Multi-Task Coherence and Prioritization [7.776434991976473]
マルチタスク学習(MTL)は、複数のタスクの同時トレーニングを含む。
本稿では,高密度視覚タスクに特化して設計された高度MTLモデルを提案する。
論文 参考訳(メタデータ) (2024-12-04T10:05:47Z) - Proactive Gradient Conflict Mitigation in Multi-Task Learning: A Sparse Training Perspective [33.477681689943516]
マルチタスク学習における一般的な問題は、勾配衝突の発生である。
スパーストレーニング(ST)による紛争軽減戦略を提案する。
実験の結果,STは競合する勾配を効果的に緩和し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-11-27T18:58:22Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z) - Multi-Task Learning as a Bargaining Game [63.49888996291245]
マルチタスク学習(MTL)では、複数のタスクを同時に予測するためにジョイントモデルを訓練する。
これらの異なるタスクの勾配が矛盾する可能性があるため、MTLのジョイントモデルを訓練すると、対応するシングルタスクモデルよりも低いパフォーマンスが得られる。
本稿では,パラメータ更新のジョイント方向で合意に達するためのタスクを交渉する交渉ゲームとして,勾配の組み合わせステップを考察する。
論文 参考訳(メタデータ) (2022-02-02T13:21:53Z) - An Optimization-Based Meta-Learning Model for MRI Reconstruction with
Diverse Dataset [4.9259403018534496]
メタラーニングフレームワークを用いた一般化可能なMRI再構成モデルを構築した。
提案するネットワークは,学習者適応モデルを用いて正規化関数を学習する。
メタトレーニング後および半減期における未確認課題の即時訓練の結果を検証した。
論文 参考訳(メタデータ) (2021-10-02T03:21:52Z) - Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。
段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。
オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文 参考訳(メタデータ) (2020-02-17T18:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。