論文の概要: MonoByte: A Pool of Monolingual Byte-level Language Models
- arxiv url: http://arxiv.org/abs/2209.11035v1
- Date: Thu, 22 Sep 2022 14:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 13:25:50.826973
- Title: MonoByte: A Pool of Monolingual Byte-level Language Models
- Title(参考訳): monobyte: モノリンガルなバイトレベルの言語モデルのプール
- Authors: Hugo Abonizio, Leandro Rodrigues de Souza, Roberto Lotufo, Rodrigo
Nogueira
- Abstract要約: 同じ構成で厳格に事前訓練された10のモノリンガルバイトレベルのモデルをリリースする。
トークンを含まないため、目に見えないトークン埋め込みの問題は排除される。
QAタスクとNLIタスクの実験は、我々のモノリンガルモデルがマルチリンガルモデルと競合する性能を達成することを示す。
- 参考スコア(独自算出の注目度): 4.491765479948667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The zero-shot cross-lingual ability of models pretrained on multilingual and
even monolingual corpora has spurred many hypotheses to explain this intriguing
empirical result. However, due to the costs of pretraining, most research uses
public models whose pretraining methodology, such as the choice of
tokenization, corpus size, and computational budget, might differ drastically.
When researchers pretrain their own models, they often do so under a
constrained budget, and the resulting models might underperform significantly
compared to SOTA models. These experimental differences led to various
inconsistent conclusions about the nature of the cross-lingual ability of these
models. To help further research on the topic, we released 10 monolingual
byte-level models rigorously pretrained under the same configuration with a
large compute budget (equivalent to 420 days on a V100) and corpora that are 4
times larger than the original BERT's. Because they are tokenizer-free, the
problem of unseen token embeddings is eliminated, thus allowing researchers to
try a wider range of cross-lingual experiments in languages with different
scripts. Additionally, we release two models pretrained on non-natural language
texts that can be used in sanity-check experiments. Experiments on QA and NLI
tasks show that our monolingual models achieve competitive performance to the
multilingual one, and hence can be served to strengthen our understanding of
cross-lingual transferability in language models.
- Abstract(参考訳): 多言語および単言語コーパスで事前訓練されたモデルのゼロショットクロスリンガル能力は、この興味深い実験結果を説明するために多くの仮説を提起している。
しかし、事前学習のコストのため、ほとんどの研究はトークン化、コーパスサイズ、計算予算の選択などの事前学習方法論が異なるかもしれない公開モデルを使用している。
研究者が自身のモデルを事前訓練する場合、しばしば制約された予算の下で行うことができ、結果として得られるモデルはSOTAモデルに比べて大幅に性能が低下する可能性がある。
これらの実験的な違いは、これらのモデルの言語間能力の性質に関する様々な矛盾した結論を導いた。
このトピックをさらに研究するため,我々は,計算予算(v100では420日相当)とコーパスがオリジナルのbertの4倍大きい,同じ構成で厳密に事前学習された10の単言語バイトレベルモデルをリリースした。
トークンを含まないため、未知のトークン埋め込みの問題は排除され、研究者は異なるスクリプトを持つ言語で幅広い言語間実験を行えるようになった。
さらに,不自然言語テキストに事前学習された2つのモデルをリリースし,健全性チェック実験に利用可能である。
qaタスクとnliタスクの実験は、我々の単言語モデルが多言語モデルとの競合性能を達成することを示し、したがって言語モデルにおける言語間伝達可能性の理解を強化するのに役立ちます。
関連論文リスト
- Understanding Calibration for Multilingual Question Answering Models [62.59193996769162]
本研究では,様々な質問応答タスクにおいて,事前学習した多言語大言語モデルの校正特性について検討する。
本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。
モデルキャリブレーションを改善するための高効率な手法として,自動翻訳データ拡張を実演する。
論文 参考訳(メタデータ) (2023-11-15T03:29:02Z) - Language Versatilists vs. Specialists: An Empirical Revisiting on
Multilingual Transfer Ability [11.000499414131324]
我々は4種類の推論タスクにまたがって実験を行う。
多言語事前学習モデルは、必ずしも英語中心のモデルよりも優れているとは限らない。
英語は適切なソース言語ではないようで、英語中心のモデルがスケールアップされると、ソース言語の選択が重要になりにくくなります。
論文 参考訳(メタデータ) (2023-06-11T14:03:09Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - Causal Analysis of Syntactic Agreement Neurons in Multilingual Language
Models [28.036233760742125]
我々は多言語言語モデル(XGLMと多言語BERT)を様々な言語で因果的に探索する。
自己回帰型多言語言語モデルでは、言語間で大きなニューロンオーバーラップが見られるが、マスキング言語モデルではない。
論文 参考訳(メタデータ) (2022-10-25T20:43:36Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - On the ability of monolingual models to learn language-agnostic
representations [2.604227467422371]
異なる言語で事前訓練および微調整された単言語モデルが競合性能を実現することを示す。
例えば、ドイツ語やポルトガル語のような遠方の言語で事前訓練されたモデルは、英語のタスクでも同様に機能する。
論文 参考訳(メタデータ) (2021-09-04T22:09:44Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。