論文の概要: MUX-PLMs: Pre-training Language Models with Data Multiplexing
- arxiv url: http://arxiv.org/abs/2302.12441v1
- Date: Fri, 24 Feb 2023 04:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:42:46.048004
- Title: MUX-PLMs: Pre-training Language Models with Data Multiplexing
- Title(参考訳): MUX-PLM: データ多重化による事前学習言語モデル
- Authors: Vishvak Murahari, Ameet Deshpande, Carlos E. Jimenez, Izhak Shafran,
Mingqiu Wang, Yuan Cao, Karthik Narasimhan
- Abstract要約: 我々は、ダウンストリームタスクで広く微調整できる事前学習型言語モデル(MUX-PLMs)を開発した。
提案手法は,スループットとダウンストリームタスクの精度を向上させるために,3段階のトレーニング手順と,新しい多重化と重複化モジュールを含む。
- 参考スコア(独自算出の注目度): 23.96140002012293
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data multiplexing is a recently proposed method for improving a model's
inference efficiency by processing multiple instances simultaneously using an
ordered representation mixture. Prior work on data multiplexing only used
task-specific Transformers without any pre-training, which limited their
accuracy and generality. In this paper, we develop pre-trained multiplexed
language models (MUX-PLMs) that can be widely finetuned on any downstream task.
Our approach includes a three-stage training procedure and novel multiplexing
and demultiplexing modules for improving throughput and downstream task
accuracy. We demonstrate our method on BERT and ELECTRA pre-training
objectives, with our MUX-BERT and MUX-ELECTRA models achieving 2x/5x inference
speedup with a 2-4 \% drop in absolute performance on GLUE and 1-2 \% drop on
token-level tasks.
- Abstract(参考訳): データ多重化は、注文された表現混合を用いて複数のインスタンスを同時に処理することで、モデルの推論効率を改善するための最近提案された手法である。
データ多重化の以前の作業は、事前トレーニングなしでタスク固有のトランスフォーマーのみを使用しており、精度と汎用性が制限されていた。
本稿では,ダウンストリームタスクで広く微調整可能な事前学習されたマルチプレックス言語モデル(mux-plms)を開発した。
提案手法は、3段階のトレーニング手順とスループットとダウンストリームタスクの正確性を改善するための新しい多重化および多重化モジュールを含む。
MUX-BERT と MUX-ELECTRA モデルは,GLUE の絶対性能が 2-4 % ,トークンレベルのタスクが 1-2 % 低下した 2x/5x の推論速度アップを達成した。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Relay Decoding: Concatenating Large Language Models for Machine Translation [21.367605327742027]
我々はRD(Relay Decoding)と呼ばれる革新的なアプローチを提案し、ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを結合する。
これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-05T13:42:25Z) - Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs
for Embodied AI [10.82017289243097]
LLM(Large Language Models)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。
m-LLMは、既存の最良のスキームと比較してタスクの精度を最大4%改善する。
論文 参考訳(メタデータ) (2023-12-13T04:08:59Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文 参考訳(メタデータ) (2023-03-10T05:22:39Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。