Fugu-MT 論文翻訳(概要): Making Small Language Models Better Multi-task Learners with Mixture-of-Task-Adapters

論文の概要: Making Small Language Models Better Multi-task Learners with Mixture-of-Task-Adapters

arxiv url: http://arxiv.org/abs/2309.11042v1
Date: Wed, 20 Sep 2023 03:39:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-21 13:19:27.926580
Title: Making Small Language Models Better Multi-task Learners with Mixture-of-Task-Adapters
Title（参考訳）: mix-of-task-adapterを用いたマルチタスク学習者のための小型言語モデルの構築
Authors: Yukang Xie, Chengyu Wang, Junbing Yan, Jiyong Zhou, Feiqi Deng, Jun Huang
Abstract要約: 大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて、驚くべきゼロショット学習性能を達成した。マルチタスク学習者に対して,小型言語モデルに基づくmixTure-of-task-adapterを効果的に構築するシステムであるALTERを提案する。少ない計算コストでアダプタ間の協調を最適化する2段階の学習手法を提案する。
参考スコア（独自算出の注目度）: 13.6682552098234
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Large Language Models (LLMs) have achieved amazing zero-shot learning performance over a variety of Natural Language Processing (NLP) tasks, especially for text generative tasks. Yet, the large size of LLMs often leads to the high computational cost of model training and online deployment. In our work, we present ALTER, a system that effectively builds the multi-tAsk Learners with mixTure-of-task-adaptERs upon small language models (with <1B parameters) to address multiple NLP tasks simultaneously, capturing the commonalities and differences between tasks, in order to support domain-specific applications. Specifically, in ALTER, we propose the Mixture-of-Task-Adapters (MTA) module as an extension to the transformer architecture for the underlying model to capture the intra-task and inter-task knowledge. A two-stage training method is further proposed to optimize the collaboration between adapters at a small computational cost. Experimental results over a mixture of NLP tasks show that our proposed MTA architecture and the two-stage training method achieve good performance. Based on ALTER, we have also produced MTA-equipped language models for various domains.
Abstract（参考訳）: 近年,多種多様な自然言語処理(NLP)タスク,特にテキスト生成タスクにおいて,LLM(Large Language Models)は驚くべきゼロショット学習性能を達成している。しかし、LLMの規模が大きいと、モデルトレーニングとオンラインデプロイメントの計算コストが高くなることが多い。本稿では,複数のnlpタスクを同時に処理する小型言語モデル(<1bパラメータ)上で,タスクの混合適応型マルチタスク学習器を効果的に構築し,タスク間の共通性と差異を捉え,ドメイン固有アプリケーションをサポートするシステムであるalterを提案する。具体的には,タスク内知識とタスク間知識を捉えるためのトランスフォーマーアーキテクチャの拡張として,mta(mixed-of-task-adapters)モジュールを提案する。少ない計算コストでアダプタ間の協調を最適化する二段階学習法が提案されている。 nlpタスクの混合による実験結果から,提案するmtaアーキテクチャと2段階トレーニング手法が良好な性能を得られた。 ALTERに基づいて,様々なドメインを対象としたMTA対応言語モデルも作成している。

関連論文リスト

Training-free LLM Merging for Multi-task Learning [74.93025750111019]
Hi-Mergingは、異なる特殊なLSMを単一のモデルに統合するためのトレーニング不要の方法である。中国語と英語の両方における複数選択および質問応答タスクの実験は、マルチタスク学習におけるHi-Mergingの能力を検証する。
論文参考訳（メタデータ） (2025-06-14T07:21:11Z)
Pilot: Building the Federated Multimodal Instruction Tuning Framework [79.56362403673354]
本フレームワークは、視覚エンコーダとLCMのコネクタに「アダプタのアダプタ」の2つの段階を統合する。ステージ1では視覚情報からタスク固有の特徴とクライアント固有の特徴を抽出する。ステージ2では、クロスタスクインタラクションを実行するために、クロスタスクMixture-of-Adapters(CT-MoA)モジュールを構築します。
論文参考訳（メタデータ） (2025-01-23T07:49:24Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
MT2ST: Adaptive Multi-Task to Single-Task Learning [6.185573921868495]
マルチタスク学習(MTL)における一般化とシングルタスク学習(STL)における精度のトレードオフについて,MT2ST(Multi-Task to Single-Task)フレームワークを導入して検討する。 MT2STは、マルチモーダルタスクにおけるトレーニング効率と精度を高めるために設計されており、効率的な機械学習の実践的応用としての価値を示している。
論文参考訳（メタデータ） (2024-06-26T03:12:07Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
Mixture-of-Instructions: Comprehensive Alignment of a Large Language Model through the Mixture of Diverse System Prompting Instructions [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。 MoIは、言語モデルのアライメント効率を高めるために、多様なシステムプロンプトと組み合わせた命令結合戦略を採用している。提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文参考訳（メタデータ） (2024-04-29T03:58:12Z)
WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。 ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文参考訳（メタデータ） (2024-03-31T12:01:32Z)
Multitask Multimodal Prompted Training for Interactive Embodied Task Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文参考訳（メタデータ） (2023-11-07T15:27:52Z)
Task-Based MoE for Multitask Multilingual Machine Translation [58.20896429151824]
Mixture-of-experts (MoE)アーキテクチャは、多くのアプリケーションで深層モデルのトレーニングにおいて、多様なタスクのための強力な手法であることが証明されている。本研究では,タスク情報を異なる粒度レベルでMoEモデルに組み込む新しい手法を,動的タスクベースアダプタの共有により設計する。
論文参考訳（メタデータ） (2023-08-30T05:41:29Z)
JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文参考訳（メタデータ） (2023-06-19T15:45:36Z)
Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。単一モデルのトレーニング中に、このマッチングプロセスを最適化する。 13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2022-12-15T18:59:52Z)
Multi-task Active Learning for Pre-trained Transformer-based Models [22.228551277598804]
複数のタスクをひとつのモデルで共同で学習するマルチタスク学習により、NLPモデルは複数のアノテーションから情報を共有することができる。このテクニックでは、コストがかかり、面倒な複数のアノテーションスキームで同じテキストに注釈を付ける必要がある。アクティブラーニング(AL)は、ラベルなし例を反復的に選択することで、アノテーションプロセスの最適化を実証している。
論文参考訳（メタデータ） (2022-08-10T14:54:13Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。