論文の概要: Examining Large Pre-Trained Language Models for Machine Translation:
What You Don't Know About It
- arxiv url: http://arxiv.org/abs/2209.07417v1
- Date: Thu, 15 Sep 2022 16:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:01:10.125209
- Title: Examining Large Pre-Trained Language Models for Machine Translation:
What You Don't Know About It
- Title(参考訳): 機械翻訳のための大規模な事前学習言語モデル:そのことについて知らないこと
- Authors: Lifeng Han, Gleb Erofeev, Irina Sorokina, Serge Gladkoff, Goran
Nenadic
- Abstract要約: 本研究では,xLPLM が小サイズの PLM よりもはるかに優れているかどうかを,ドメイン固有の MT に向けて微調整する。
我々は,Marian Helsinki を小型 PLM として,Meta-AI から2つの大規模 Mega-Transformer を xLPLM として選択した。
- 参考スコア(独自算出の注目度): 11.571189144910521
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained language models (PLMs) often take advantage of the monolingual
and multilingual dataset that is freely available online to acquire general or
mixed domain knowledge before deployment into specific tasks. Extra-large PLMs
(xLPLMs) are proposed very recently to claim supreme performances over
smaller-sized PLMs such as in machine translation (MT) tasks. These xLPLMs
include Meta-AI's wmt21-dense-24-wide-en-X and NLLB. \textit{In this work, we
examine if xLPLMs are absolutely superior to smaller-sized PLMs in fine-tuning
toward domain-specific MTs.} We use two different in-domain data of different
sizes: commercial automotive in-house data and \textbf{clinical} shared task
data from the ClinSpEn2022 challenge at WMT2022. We choose popular Marian
Helsinki as smaller sized PLM and two massive-sized Mega-Transformers from
Meta-AI as xLPLMs.
Our experimental investigation shows that 1) on smaller sized in-domain
commercial automotive data, xLPLM wmt21-dense-24-wide-en-X indeed shows much
better evaluation scores using S\textsc{acre}BLEU and hLEPOR metrics than
smaller-sized Marian, even though its score increase rate is lower than Marian
after fine-tuning; 2) on relatively larger-size well prepared clinical data
fine-tuning, the xLPLM NLLB \textbf{tends to lose} its advantage over
smaller-sized Marian on two sub-tasks (clinical terms and ontology concepts)
using ClinSpEn offered metrics METEOR, COMET, and ROUGE-L, and totally lost to
Marian on Task-1 (clinical cases) on all metrics including S\textsc{acre}BLEU
and BLEU; 3) \textbf{metrics do not always agree} with each other on the same
tasks using the same model outputs.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、特定のタスクにデプロイする前に一般または混在したドメイン知識を取得するために、オンラインで自由に利用できるモノリンガルおよび多言語データセットを利用することが多い。
機械翻訳(MT)タスクなど,小型のPLMよりも優れた性能を主張するために,xLPLM(extra-large PLM)を提案する。
これらのxLPLMにはMeta-AIのwmt21-dense-24-wide-en-XとNLLBが含まれる。
この研究では、xLPLM がドメイン固有の MT への微調整において、より小さな PLM よりも絶対的に優れているかどうかを検討する。
We use two different different in- domain data of different size: commercial car in-house data and \textbf{clinical} shared task data from the ClinSpEn2022 Challenge at WMT2022。
我々は,Marian Helsinki を小型 PLM として,Meta-AI から大容量 Mega-Transformer を xLPLM として選択した。
我々の実験的調査は
1) 小型のドメイン内商用自動車データでは, 微調整後のスコア上昇率がマリアンよりも低いにもかかわらず, S\textsc{acre}BLEU および hLEPOR 測定値を用いた評価スコアは, 実際により優れている。
2) ClinSpEnによる2つのサブタスク(クリニカル用語とオントロジー概念)において,xLPLM NLLB \textbf{tends to lose} という比較的大規模な臨床データマイニングでは,METEOR,COMET,ROUGE-L,S\textsc{acre}BLEU,BLEUを含むすべての指標でMarian on Task-1(クリニカルケース)を完全に失っている。
3) \textbf{metrics は、同じモデル出力を使用して同じタスクで互いに一致するとは限らない。
関連論文リスト
- BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - PySCIPOpt-ML: Embedding Trained Machine Learning Models into Mixed-Integer Programs [0.7661676407098753]
機械学習予測器を最適化問題に組み込むオープンソースツールであるPySCIPOpt-MLを紹介した。
PySCIPOpt-MLは、広く使われているMLフレームワークとオープンソースのMIPソルバと対話することによって、ML制約を最適化問題に簡単に統合する方法を提供する。
本稿では,SurrogateLIB上での計算結果について述べる。
論文 参考訳(メタデータ) (2023-12-13T11:36:55Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Investigating Massive Multilingual Pre-Trained Machine Translation
Models for Clinical Domain via Transfer Learning [11.571189144910521]
本研究は,MMPLMが臨床ドメイン機械翻訳(MT)に適用可能かどうかを,転写学習を通じて完全に見えない言語に適用できるかどうかを検討する。
近年、多言語事前学習言語モデル (MMPLM) が開発され、下流タスクのために獲得した超能力と事前知識が実証されている。
論文 参考訳(メタデータ) (2022-10-12T10:19:44Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。