Fugu-MT 論文翻訳(概要): Alternate Training of Shared and Task-Specific Parameters for Multi-Task Neural Networks

論文の概要: Alternate Training of Shared and Task-Specific Parameters for Multi-Task Neural Networks

arxiv url: http://arxiv.org/abs/2312.16340v1
Date: Tue, 26 Dec 2023 21:33:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 19:49:04.440139
Title: Alternate Training of Shared and Task-Specific Parameters for Multi-Task Neural Networks
Title（参考訳）: マルチタスクニューラルネットワークにおける共有パラメータとタスクパラメータの交互学習
Authors: Stefania Bellavia, Francesco Della Santa, Alessandra Papini
Abstract要約: 本稿では,ハードパラメータ共有マルチタスクニューラルネットワーク(MTNN)のための新しい代替トレーニング手法を提案する。提案した代替トレーニング手法は、モデルのマルチヘッドアーキテクチャを利用して、共有およびタスク固有の重みを交互に更新する。実証実験では、遅延オーバーフィッティング、予測の改善、計算要求の削減が示されている。
参考スコア（独自算出の注目度）: 49.1574468325115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces novel alternate training procedures for hard-parameter sharing Multi-Task Neural Networks (MTNNs). Traditional MTNN training faces challenges in managing conflicting loss gradients, often yielding sub-optimal performance. The proposed alternate training method updates shared and task-specific weights alternately, exploiting the multi-head architecture of the model. This approach reduces computational costs, enhances training regularization, and improves generalization. Convergence properties similar to those of the classical stochastic gradient method are established. Empirical experiments demonstrate delayed overfitting, improved prediction, and reduced computational demands. In summary, our alternate training procedures offer a promising advancement for the training of hard-parameter sharing MTNNs.
Abstract（参考訳）: 本稿では,マルチタスクニューラルネットワーク(MTNN)のための新しい訓練手法を提案する。従来のMTNNトレーニングは、競合する損失勾配を管理する際の課題に直面し、しばしば準最適パフォーマンスをもたらす。提案手法では,共有とタスク固有の重みを交互に更新し,モデルのマルチヘッドアーキテクチャを活用する。このアプローチは計算コストを削減し、トレーニング正規化を強化し、一般化を改善する。古典的確率勾配法と同様の収束特性が確立される。実証実験では、遅延オーバーフィッティング、予測の改善、計算要求の削減が示されている。まとめると、我々の代替トレーニング手順は、ハードパラメータ共有MTNNのトレーニングに有望な進歩をもたらす。

関連論文リスト

Neural Network Training via Stochastic Alternating Minimization with Trainable Step Sizes [3.246129789918632]
ディープニューラルネットワークのトレーニングは本質的に非最適化問題である。勾配降下(SGD)のような標準的なアプローチでは、パラメータを同時に更新する必要がある。そこで本研究では,SAMTを用いた列車最小化手法を提案する。 SAMTは、最先端のメソッドに比べて、パラメータ更新が少なく、パフォーマンスが向上する。
論文参考訳（メタデータ） (2025-08-06T08:23:38Z)
Decoupled Relative Learning Rate Schedules [4.34286535607654]
トランスフォーマーモデルにおいて、異なるコンポーネントの重みの学習率を調整することで、LLMトレーニングを最適化するための新しいアプローチを導入する。導入した相対学習率RLRSは,学習過程を最大で23%高速化する。
論文参考訳（メタデータ） (2025-07-04T12:23:45Z)
ADMM-Based Training for Spiking Neural Networks [1.1249583407496218]
スパイクニューラルネットワーク(SNN)は、時系列処理とエネルギー消費の最小化によって、その可能性の高さから勢いを増している。彼らはまだ、専用で効率的なトレーニングアルゴリズムを欠いている。乗算器の交互方向法(ADMM)に基づく新しいSNN訓練法を提案する。
論文参考訳（メタデータ） (2025-05-08T10:20:33Z)
Self-Controlled Dynamic Expansion Model for Continual Learning [10.447232167638816]
本稿では, 自己制御型動的拡張モデル(SCDEM)を提案する。 SCDEMは複数のトレーニング可能なトレーニング済みのViTバックボーンを編成し、多様で意味的に豊かな表現を提供する。提案手法の有効性を評価するため,幅広い実験が実施されている。
論文参考訳（メタデータ） (2025-04-14T15:22:51Z)
An Augmented Backward-Corrected Projector Splitting Integrator for Dynamical Low-Rank Training [47.69709732622765]
必要なQR分解数を削減できる新しい低ランクトレーニング手法を提案する。提案手法は,プロジェクタ分割方式に拡張ステップを組み込むことにより,局所最適解への収束を確保する。
論文参考訳（メタデータ） (2025-02-05T09:03:50Z)
Optimizing Dense Visual Predictions Through Multi-Task Coherence and Prioritization [7.776434991976473]
マルチタスク学習(MTL)は、複数のタスクの同時トレーニングを含む。本稿では,高密度視覚タスクに特化して設計された高度MTLモデルを提案する。
論文参考訳（メタデータ） (2024-12-04T10:05:47Z)
Proactive Gradient Conflict Mitigation in Multi-Task Learning: A Sparse Training Perspective [33.477681689943516]
マルチタスク学習における一般的な問題は、勾配衝突の発生である。スパーストレーニング(ST)による紛争軽減戦略を提案する。実験の結果,STは競合する勾配を効果的に緩和し,性能が向上することが示された。
論文参考訳（メタデータ） (2024-11-27T18:58:22Z)
LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。 LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文参考訳（メタデータ） (2024-10-22T16:26:05Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文参考訳（メタデータ） (2023-08-18T13:20:08Z)
Multimodal Parameter-Efficient Few-Shot Class Incremental Learning [1.9220716793379256]
FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。このタスクを成功させるためには、数発のトレーニングセットにおけるバイアス分布に起因する新しいクラスを過度に適合させるのを避ける必要がある。 CPE-CLIPは、最先端の提案と比較してFSCILの性能を著しく改善すると同時に、学習可能なパラメータの数やトレーニングコストを大幅に削減する。
論文参考訳（メタデータ） (2023-03-08T17:34:15Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-05-22T09:48:41Z)
Multi-Task Learning as a Bargaining Game [63.49888996291245]
マルチタスク学習(MTL)では、複数のタスクを同時に予測するためにジョイントモデルを訓練する。これらの異なるタスクの勾配が矛盾する可能性があるため、MTLのジョイントモデルを訓練すると、対応するシングルタスクモデルよりも低いパフォーマンスが得られる。本稿では,パラメータ更新のジョイント方向で合意に達するためのタスクを交渉する交渉ゲームとして,勾配の組み合わせステップを考察する。
論文参考訳（メタデータ） (2022-02-02T13:21:53Z)
An Optimization-Based Meta-Learning Model for MRI Reconstruction with Diverse Dataset [4.9259403018534496]
メタラーニングフレームワークを用いた一般化可能なMRI再構成モデルを構築した。提案するネットワークは,学習者適応モデルを用いて正規化関数を学習する。メタトレーニング後および半減期における未確認課題の即時訓練の結果を検証した。
論文参考訳（メタデータ） (2021-10-02T03:21:52Z)
Improving the Accuracy of Early Exits in Multi-Exit Architectures via Curriculum Learning [88.17413955380262]
マルチエクイットアーキテクチャにより、ディープニューラルネットワークは、正確なコストで厳密な期限に従うために、実行を早期に終了することができる。カリキュラム学習を活用したマルチエクジットカリキュラム学習という新しい手法を紹介します。本手法は, 標準訓練手法と比較して, 早期終了の精度を一貫して向上させる。
論文参考訳（メタデータ） (2021-04-21T11:12:35Z)
Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文参考訳（メタデータ） (2020-09-24T15:40:55Z)
AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文参考訳（メタデータ） (2020-06-11T16:36:31Z)
Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文参考訳（メタデータ） (2020-02-17T18:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。