論文の概要: Subword Pooling Makes a Difference
- arxiv url: http://arxiv.org/abs/2102.10864v1
- Date: Mon, 22 Feb 2021 09:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:04:07.056543
- Title: Subword Pooling Makes a Difference
- Title(参考訳): サブワードプーリングは違いをもたらす
- Authors: Judit \'Acs and \'Akos K\'ad\'ar and Andr\'as Kornai
- Abstract要約: サブワードプーリングの選択が3つのタスクの下流性能に与える影響について検討する。
形態的タスクでは、「最初のサブワードを選ぶ」が最悪の戦略である。
POSタグ付けでは、どちらの戦略も性能が悪く、サブワードに小さなLSTMを使用するのが最適である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual word-representations became a standard in modern natural language
processing systems. These models use subword tokenization to handle large
vocabularies and unknown words. Word-level usage of such systems requires a way
of pooling multiple subwords that correspond to a single word. In this paper we
investigate how the choice of subword pooling affects the downstream
performance on three tasks: morphological probing, POS tagging and NER, in 9
typologically diverse languages. We compare these in two massively multilingual
models, mBERT and XLM-RoBERTa. For morphological tasks, the widely used `choose
the first subword' is the worst strategy and the best results are obtained by
using attention over the subwords. For POS tagging both of these strategies
perform poorly and the best choice is to use a small LSTM over the subwords.
The same strategy works best for NER and we show that mBERT is better than
XLM-RoBERTa in all 9 languages. We publicly release all code, data and the full
result tables at \url{https://github.com/juditacs/subword-choice}.
- Abstract(参考訳): 文脈表現は現代の自然言語処理システムの標準となった。
これらのモデルは、大きな語彙と未知語を扱うためにサブワードトークン化を使用する。
そのようなシステムの単語レベルの使用には、単一の単語に対応する複数のサブワードをプールする方法が必要です。
本稿では,9種類の言語において,サブワードプーリングの選択が3つのタスク(形態素探索,POSタグ付け,NER)のダウンストリーム性能に与える影響について検討する。
これらをmBERTとXLM-RoBERTaの2つの大規模多言語モデルで比較します。
形態的タスクでは、広く使われている「第1サブワードの選択」が最悪の戦略であり、そのサブワードに注意を払って最良の結果が得られる。
POSタグ付けでは、どちらの戦略も性能が悪く、サブワードに小さなLSTMを使用するのが最適である。
同じ戦略がNERでも有効であり、すべての9言語でmBERTがXLM-RoBERTaより優れていることを示す。
すべてのコード、データ、および完全な結果表を \url{https://github.com/juditacs/subword-choice} で公開します。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Impact of Subword Pooling Strategy on Cross-lingual Event Detection [2.3361634876233817]
プーリング戦略は、サブワード表現を入力として、ワード全体の表現を出力する。
プール戦略の選択は、対象言語の性能に重大な影響を与える可能性があることを示す。
多様な多言語データセットにおいて、9言語にまたがる5つの異なるプール戦略を用いて分析を行う。
論文 参考訳(メタデータ) (2023-02-22T13:33:21Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Breaking Character: Are Subwords Good Enough for MRLs After All? [36.11778282905458]
単語ピースの代わりに文字列よりもBERTスタイルの言語モデルを事前学習する。
我々は,3つの高度に複雑で曖昧なMRLのサブワードをベースとした,TavBERTと呼ばれるモデルと,現代のPLMを比較した。
これらの結果から,TavBERTは表層タスクを軽度に改善するのに対し,サブワードベースのPLMは意味タスクの処理性能が著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-04-10T18:54:43Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Subword Mapping and Anchoring across Languages [1.9352552677009318]
SMALA (Subword Mapping and Anchoring across Languages) は、バイリンガルなサブワード語彙を構築する方法である。
SMALAは教師なしの最先端マッピング技術を用いてサブワードアライメントを抽出する。
SMALAで獲得した単語語彙は,多くの偽陽性と偽陰性を含む文のBLEUスコアが高くなることを示す。
論文 参考訳(メタデータ) (2021-09-09T20:46:27Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - DBTagger: Multi-Task Learning for Keyword Mapping in NLIDBs Using
Bi-Directional Recurrent Neural Networks [0.2578242050187029]
NLQのPOSタグを利用した新しいディープラーニングに基づく教師付きアプローチを提案する。
8つの異なるデータセットに対するアプローチを評価し、最新の精度結果、平均92.4%$を報告します。
論文 参考訳(メタデータ) (2021-01-11T22:54:39Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。
我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-10-24T01:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。