Fugu-MT 論文翻訳(概要): Robustly Optimized and Distilled Training for Natural Language Understanding

論文の概要: Robustly Optimized and Distilled Training for Natural Language Understanding

arxiv url: http://arxiv.org/abs/2103.08809v1
Date: Tue, 16 Mar 2021 02:35:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-17 13:32:14.161010
Title: Robustly Optimized and Distilled Training for Natural Language Understanding
Title（参考訳）: 自然言語理解のためのロバストな最適化と蒸留訓練
Authors: Haytham ElFadeel and Stan Peshterliev
Abstract要約: 変換言語モデルのための拡張普遍言語表現を学習するための第2の事前学習ステップとして,マルチタスク学習(MTL)について検討する。知識蒸留(KD)をMTLに組み込んで、パフォーマンスをさらに高め、複数の教師から効果的に学習するKDバリアントを考案します。我々は,ELECTRAモデルとともにROaDを用いて,機械読解と自然言語推論の最先端結果を得る。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we explore multi-task learning (MTL) as a second pretraining step to learn enhanced universal language representation for transformer language models. We use the MTL enhanced representation across several natural language understanding tasks to improve performance and generalization. Moreover, we incorporate knowledge distillation (KD) in MTL to further boost performance and devise a KD variant that learns effectively from multiple teachers. By combining MTL and KD, we propose Robustly Optimized and Distilled (ROaD) modeling framework. We use ROaD together with the ELECTRA model to obtain state-of-the-art results for machine reading comprehension and natural language inference.
Abstract（参考訳）: 本稿では,トランスフォーマー言語モデルのための拡張ユニバーサル言語表現を学ぶための第2の事前学習ステップとして,マルチタスク学習(mtl)について検討する。我々は、MTL拡張表現をいくつかの自然言語理解タスクで使用し、性能と一般化を改善した。さらに、知識蒸留(KD)をMTLに組み込んで、パフォーマンスをさらに向上させ、複数の教師から効果的に学習するKD変異を考案する。 MTLとKDを組み合わせることで、ロバスト最適化・蒸留(ROaD)モデリングフレームワークを提案する。我々はELECTRAモデルとともにROaDを用いて,機械読解と自然言語推論の最先端結果を得る。

関連論文リスト

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
MLAN: Language-Based Instruction Tuning Improves Zero-Shot Generalization of Multimodal Large Language Models [79.0546136194314]
マルチモーダルな大規模言語モデルのゼロショットタスクの一般化を改善するために,新しい命令チューニング手法を提案する。提案手法の有効性を,言語と視覚の両面にまたがる9つの未知のデータセットに対して評価した。
論文参考訳（メタデータ） (2024-11-15T20:09:59Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
Machine Translation with Large Language Models: Prompt Engineering for Persian, English, and Russian Directions [0.0]
生成型大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、例外的な習熟性を示している。我々は,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせについて調査を行った。
論文参考訳（メタデータ） (2024-01-16T15:16:34Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)
Unsupervised Improvement of Factual Knowledge in Language Models [4.5788796239850225]
マスケッド言語モデリングは、大規模言語モデルの事前訓練において重要な役割を果たす。本稿では,様々な知識集約型タスクにおいて,言語モデルの性能を向上させる方法として,事前学習に影響を与えるアプローチを提案する。
論文参考訳（メタデータ） (2023-04-04T07:37:06Z)
A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文参考訳（メタデータ） (2023-01-12T08:01:53Z)
Multi-level Distillation of Semantic Knowledge for Pre-training Multilingual Language Model [15.839724725094916]
マルチレベル多言語知識蒸留(MMKD)は,多言語言語モデルを改善するための新しい手法である。我々は、英語のBERTでリッチな意味表現の知識を採用するために、教師中心のフレームワークを採用している。我々は,XNLI,PAWS-X,XQuADなどの言語間評価ベンチマーク実験を行った。
論文参考訳（メタデータ） (2022-11-02T15:23:13Z)
PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (2022-04-05T16:11:45Z)
Incorporating Linguistic Knowledge for Abstractive Multi-document Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。依存関係情報を言語誘導型注意機構に処理する。言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文参考訳（メタデータ） (2021-09-23T08:13:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。