Fugu-MT 論文翻訳(概要): Challenges and Opportunities of Using Transformer-Based Multi-Task Learning in NLP Through ML Lifecycle: A Survey

論文の概要: Challenges and Opportunities of Using Transformer-Based Multi-Task Learning in NLP Through ML Lifecycle: A Survey

arxiv url: http://arxiv.org/abs/2308.08234v1
Date: Wed, 16 Aug 2023 09:11:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 14:16:08.819457
Title: Challenges and Opportunities of Using Transformer-Based Multi-Task Learning in NLP Through ML Lifecycle: A Survey
Title（参考訳）: MLライフサイクルによるNLPにおけるトランスフォーマーベースマルチタスク学習の課題と可能性
Authors: Lovre Torbarina, Tin Ferkovic, Lukasz Roguski, Velimir Mihelcic, Bruno Sarlija, Zeljko Kraljevic
Abstract要約: MTL(Multi-Task Learning)は,共同学習による効率向上とパフォーマンス向上のための,有望なアプローチとして登場した。本稿では,機械学習ライフサイクルの典型的な段階を通じて,MLLアプローチを使用する上での課題と機会について論じる。 MTLと継続学習の両方を扱えるモデルを持つことは現実的だと思います。
参考スコア（独自算出の注目度）: 0.6240603866868214
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing adoption of natural language processing (NLP) models across industries has led to practitioners' need for machine learning systems to handle these models efficiently, from training to serving them in production. However, training, deploying, and updating multiple models can be complex, costly, and time-consuming, mainly when using transformer-based pre-trained language models. Multi-Task Learning (MTL) has emerged as a promising approach to improve efficiency and performance through joint training, rather than training separate models. Motivated by this, we first provide an overview of transformer-based MTL approaches in NLP. Then, we discuss the challenges and opportunities of using MTL approaches throughout typical ML lifecycle phases, specifically focusing on the challenges related to data engineering, model development, deployment, and monitoring phases. This survey focuses on transformer-based MTL architectures and, to the best of our knowledge, is novel in that it systematically analyses how transformer-based MTL in NLP fits into ML lifecycle phases. Furthermore, we motivate research on the connection between MTL and continual learning (CL), as this area remains unexplored. We believe it would be practical to have a model that can handle both MTL and CL, as this would make it easier to periodically re-train the model, update it due to distribution shifts, and add new capabilities to meet real-world requirements.
Abstract（参考訳）: 業界全体で自然言語処理(NLP)モデルの採用が増加し、実践者はこれらのモデルを効率的に扱うために機械学習システムを必要としている。しかし、トランスフォーマーベースの事前訓練言語モデルを使用する場合、複数のモデルのトレーニング、デプロイ、更新は複雑でコストがかかり、時間を要する可能性がある。マルチタスク学習(mtl)は、個別のモデルをトレーニングするのではなく、共同トレーニングによる効率とパフォーマンスを改善するための有望なアプローチとして登場した。そこで我々はまず,NLPにおけるトランスフォーマーベースのMTLアプローチの概要を紹介する。次に、データエンジニアリング、モデル開発、デプロイメント、監視フェーズに関連する課題に焦点をあて、典型的なMLライフサイクルフェーズを通じてMTLアプローチを使用することの課題と機会について論じる。この調査はトランスフォーマティブベースのmtlアーキテクチャに焦点を当てており、我々の知る限りでは、nlpにおけるトランスフォーマティブベースのmtlがmlライフサイクルフェーズにどのように適合するかを体系的に分析する点で斬新である。さらに,本研究は,MTLと継続学習(CL)の関連性に関する研究を動機付けている。 MTLとCLの両方を扱えるモデルを持つことは、定期的にモデルをトレーニングし、分散シフトのために更新し、現実世界の要件を満たす新たな機能を追加する上で、実用的だと考えています。

関連論文リスト

MLLM-CL: Continual Learning for Multimodal Large Language Models [62.90736445575181]
ドメインと能力の連続学習を含む新しいベンチマークであるMLLM-CLを紹介する。我々のアプローチは、ドメイン固有の知識と機能的能力とを最小限の忘れ込みで統合することができ、既存の手法よりもはるかに優れています。
論文参考訳（メタデータ） (2025-06-05T17:58:13Z)
MTL-UE: Learning to Learn Nothing for Multi-Task Learning [98.42358524454731]
本稿では,マルチタスクデータとMLLモデルの非学習可能な例を生成するための,最初の統合フレームワークであるMTL-UEを提案する。各サンプルに対してロバスト性を最適化する代わりに、ラベル先行とクラスワイズ機能埋め込みを導入したジェネレータベースの構造を設計する。さらに、MTL-UEは、クラス間の分離を増加させ、クラス内の分散を抑制するために、タスク内およびタスク間埋め込み正規化を組み込んでいる。
論文参考訳（メタデータ） (2025-05-08T14:26:00Z)
Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention [0.0]
Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
論文参考訳（メタデータ） (2025-04-08T22:16:54Z)
P2W: From Power Traces to Weights Matrix -- An Unconventional Transfer Learning Approach [1.1383507019490222]
チップ(SoC)上に組み込みシステムに機械学習モデル(ML)をデプロイすることの急速な成長は、ヘルスケアや自動運転車といった分野に変革をもたらした。このような組み込みMLモデルをトレーニングする上での大きな課題のひとつは、公開可能な高品質なトレーニングデータがないことだ。本稿では,既存のMLモデルから重みを抽出し,使用することにより,新しいMLモデルをトレーニングするための,新しい非従来型トランスファー学習手法を提案する。
論文参考訳（メタデータ） (2025-02-20T19:05:28Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
MLLM-FL: Multimodal Large Language Model Assisted Federated Learning on Heterogeneous and Long-tailed Data [25.45278447786954]
MLLM-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文参考訳（メタデータ） (2024-09-09T21:04:16Z)
MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。 MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文参考訳（メタデータ） (2024-08-07T02:28:37Z)
SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文参考訳（メタデータ） (2024-07-11T05:38:15Z)
Federated Transfer Learning with Task Personalization for Condition Monitoring in Ultrasonic Metal Welding [3.079885946230076]
本稿ではトランスファーラーニングについて述べる。分散分散学習フレームワークでデータ機能を提供するFTLTP(Federated Task Task Architecture)。 FTL-TPフレームワークは、様々な製造アプリケーションに容易に適用できる。
論文参考訳（メタデータ） (2024-04-20T05:31:59Z)
How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes [6.652837942112205]
大規模言語モデル(LLM)は、テキストとして提供される少数の例に基づいて、目に見えないタスクを実行するという異常な能力を示している。我々は、ICLモデルによるデータ効率の向上と、より安定した収束を実現するための効果的なカリキュラム学習戦略をいくつか提案する。実験の結果, ICLモデルでは, 従来の課題を混在させながら, 段階的に難しいタスクを学習することで, 難易度を効果的に学習できることが判明した。
論文参考訳（メタデータ） (2024-04-04T16:15:23Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
Dynamic Transformer Architecture for Continual Learning of Multimodal Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-27T03:03:30Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文参考訳（メタデータ） (2023-07-04T02:47:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。