論文の概要: Resolving Token-Space Gradient Conflicts: Token Space Manipulation for Transformer-Based Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2507.07485v1
- Date: Thu, 10 Jul 2025 07:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.300986
- Title: Resolving Token-Space Gradient Conflicts: Token Space Manipulation for Transformer-Based Multi-Task Learning
- Title(参考訳): Token-Space Gradient Conflictsの解決:Transformer-based Multi-Task LearningのためのToken Space Manipulation
- Authors: Wooseong Jeong, Kuk-Jin Yoon,
- Abstract要約: マルチタスク学習(MTL)は、複数のタスクを共有ネットワーク内で学習することを可能にするが、タスク間の目的の違いは負の伝達を引き起こす可能性がある。
変換器をベースとしたMTLアーキテクチャに適用可能なフレームワークDTME-MTL(Dynamic Token Modulation and Expansion)を提案する。
- 参考スコア(独自算出の注目度): 44.601029688423914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Task Learning (MTL) enables multiple tasks to be learned within a shared network, but differences in objectives across tasks can cause negative transfer, where the learning of one task degrades another task's performance. While pre-trained transformers significantly improve MTL performance, their fixed network capacity and rigid structure limit adaptability. Previous dynamic network architectures attempt to address this but are inefficient as they directly convert shared parameters into task-specific ones. We propose Dynamic Token Modulation and Expansion (DTME-MTL), a framework applicable to any transformer-based MTL architecture. DTME-MTL enhances adaptability and reduces overfitting by identifying gradient conflicts in token space and applying adaptive solutions based on conflict type. Unlike prior methods that mitigate negative transfer by duplicating network parameters, DTME-MTL operates entirely in token space, enabling efficient adaptation without excessive parameter growth. Extensive experiments demonstrate that DTME-MTL consistently improves multi-task performance with minimal computational overhead, offering a scalable and effective solution for enhancing transformer-based MTL models.
- Abstract(参考訳): マルチタスク学習(MTL)は、複数のタスクを共有ネットワーク内で学習することを可能にするが、タスク間の目的の違いは、あるタスクの学習が別のタスクのパフォーマンスを劣化させる負の伝達を引き起こす可能性がある。
事前学習したトランスはMTL性能を著しく向上させるが、その固定されたネットワーク容量と剛体構造制限適応性は向上する。
従来の動的ネットワークアーキテクチャはこの問題に対処しようとしたが、共有パラメータを直接タスク固有のパラメータに変換するため、非効率である。
変換器をベースとしたMTLアーキテクチャに適用可能なフレームワークDTME-MTL(Dynamic Token Modulation and Expansion)を提案する。
DTME-MTLは適応性を高め、トークン空間内の勾配競合を特定し、競合型に基づいた適応解を適用することで過度な適合を低減する。
ネットワークパラメータの重複による負の転送を緩和する従来の手法とは異なり、DTME-MTLはトークン空間で完全に動作し、過剰なパラメータ成長を伴わない効率的な適応を可能にする。
大規模な実験により、DTME-MTLは最小の計算オーバーヘッドでマルチタスク性能を継続的に改善し、トランスフォーマーベースのMTLモデルを拡張するためのスケーラブルで効率的なソリューションを提供する。
関連論文リスト
- R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。