論文の概要: Resolving Token-Space Gradient Conflicts: Token Space Manipulation for Transformer-Based Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2507.07485v1
- Date: Thu, 10 Jul 2025 07:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.300986
- Title: Resolving Token-Space Gradient Conflicts: Token Space Manipulation for Transformer-Based Multi-Task Learning
- Title(参考訳): Token-Space Gradient Conflictsの解決:Transformer-based Multi-Task LearningのためのToken Space Manipulation
- Authors: Wooseong Jeong, Kuk-Jin Yoon,
- Abstract要約: マルチタスク学習(MTL)は、複数のタスクを共有ネットワーク内で学習することを可能にするが、タスク間の目的の違いは負の伝達を引き起こす可能性がある。
変換器をベースとしたMTLアーキテクチャに適用可能なフレームワークDTME-MTL(Dynamic Token Modulation and Expansion)を提案する。
- 参考スコア(独自算出の注目度): 44.601029688423914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Task Learning (MTL) enables multiple tasks to be learned within a shared network, but differences in objectives across tasks can cause negative transfer, where the learning of one task degrades another task's performance. While pre-trained transformers significantly improve MTL performance, their fixed network capacity and rigid structure limit adaptability. Previous dynamic network architectures attempt to address this but are inefficient as they directly convert shared parameters into task-specific ones. We propose Dynamic Token Modulation and Expansion (DTME-MTL), a framework applicable to any transformer-based MTL architecture. DTME-MTL enhances adaptability and reduces overfitting by identifying gradient conflicts in token space and applying adaptive solutions based on conflict type. Unlike prior methods that mitigate negative transfer by duplicating network parameters, DTME-MTL operates entirely in token space, enabling efficient adaptation without excessive parameter growth. Extensive experiments demonstrate that DTME-MTL consistently improves multi-task performance with minimal computational overhead, offering a scalable and effective solution for enhancing transformer-based MTL models.
- Abstract(参考訳): マルチタスク学習(MTL)は、複数のタスクを共有ネットワーク内で学習することを可能にするが、タスク間の目的の違いは、あるタスクの学習が別のタスクのパフォーマンスを劣化させる負の伝達を引き起こす可能性がある。
事前学習したトランスはMTL性能を著しく向上させるが、その固定されたネットワーク容量と剛体構造制限適応性は向上する。
従来の動的ネットワークアーキテクチャはこの問題に対処しようとしたが、共有パラメータを直接タスク固有のパラメータに変換するため、非効率である。
変換器をベースとしたMTLアーキテクチャに適用可能なフレームワークDTME-MTL(Dynamic Token Modulation and Expansion)を提案する。
DTME-MTLは適応性を高め、トークン空間内の勾配競合を特定し、競合型に基づいた適応解を適用することで過度な適合を低減する。
ネットワークパラメータの重複による負の転送を緩和する従来の手法とは異なり、DTME-MTLはトークン空間で完全に動作し、過剰なパラメータ成長を伴わない効率的な適応を可能にする。
大規模な実験により、DTME-MTLは最小の計算オーバーヘッドでマルチタスク性能を継続的に改善し、トランスフォーマーベースのMTLモデルを拡張するためのスケーラブルで効率的なソリューションを提供する。
関連論文リスト
- Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - MTLoRA: A Low-Rank Adaptation Approach for Efficient Multi-Task Learning [1.4396109429521227]
大規模データセットに事前トレーニングされたモデルを、さまざまな下流タスクに適応させることは、ディープラーニングにおける一般的な戦略である。
パラメータ効率のよい微調整手法は、最小限のパラメータだけを訓練しながら、事前訓練されたモデルを異なるタスクに適応させる有望な方法として登場した。
本稿では,マルチタスク学習モデルのパラメータ効率向上のための新しいフレームワークMTLoRAを紹介する。
論文 参考訳(メタデータ) (2024-03-29T17:43:58Z) - InterroGate: Learning to Share, Specialize, and Prune Representations
for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。
学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文 参考訳(メタデータ) (2024-02-26T18:59:52Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。