論文の概要: Breaking Character: Are Subwords Good Enough for MRLs After All?
- arxiv url: http://arxiv.org/abs/2204.04748v1
- Date: Sun, 10 Apr 2022 18:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 09:30:01.263648
- Title: Breaking Character: Are Subwords Good Enough for MRLs After All?
- Title(参考訳): 破壊的キャラクタ: サブワードは、結局mrlsにとって十分か?
- Authors: Omri Keren, Tal Avinari, Reut Tsarfaty, Omer Levy
- Abstract要約: 単語ピースの代わりに文字列よりもBERTスタイルの言語モデルを事前学習する。
我々は,3つの高度に複雑で曖昧なMRLのサブワードをベースとした,TavBERTと呼ばれるモデルと,現代のPLMを比較した。
これらの結果から,TavBERTは表層タスクを軽度に改善するのに対し,サブワードベースのPLMは意味タスクの処理性能が著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 36.11778282905458
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large pretrained language models (PLMs) typically tokenize the input string
into contiguous subwords before any pretraining or inference. However, previous
studies have claimed that this form of subword tokenization is inadequate for
processing morphologically-rich languages (MRLs). We revisit this hypothesis by
pretraining a BERT-style masked language model over character sequences instead
of word-pieces. We compare the resulting model, dubbed TavBERT, against
contemporary PLMs based on subwords for three highly complex and ambiguous MRLs
(Hebrew, Turkish, and Arabic), testing them on both morphological and semantic
tasks. Our results show, for all tested languages, that while TavBERT obtains
mild improvements on surface-level tasks \`a la POS tagging and full
morphological disambiguation, subword-based PLMs achieve significantly higher
performance on semantic tasks, such as named entity recognition and extractive
question answering. These results showcase and (re)confirm the potential of
subword tokenization as a reasonable modeling assumption for many languages,
including MRLs.
- Abstract(参考訳): 大規模事前学習言語モデル(plm)は、通常、事前訓練や推論の前に入力文字列を連続したサブワードにトークン化する。
しかし、過去の研究では、このサブワードトークン化の形式は形態的にリッチな言語(MRL)の処理には不十分であると主張している。
単語ピースの代わりに文字列よりもBERTスタイルのマスキング言語モデルを事前学習することで、この仮説を再考する。
本稿では,3つの高度に複雑で曖昧なMRL(ヘブライ語,トルコ語,アラビア語)のサブワードをベースとした,TavBERTと呼ばれる同時代のPLMと比較し,形態的および意味的タスクでそれらをテストする。
以上の結果から,TavBERT は表層レベルのタスク '`a la POS タグ付けと全形態的曖昧さを軽度に改善する一方で,サブワードベースの PLM は,名前付きエンティティ認識や抽出質問応答などのセマンティックタスクにおいて有意に高い性能を発揮することがわかった。
これらの結果は、MRLを含む多くの言語において、意味のあるモデリング仮定としてサブワードトークン化の可能性を示し(再)確認する。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Subword Segmental Language Modelling for Nguni Languages [7.252933737829635]
サブワードセグメント言語モデル(SSLM)は、自動回帰言語モデリングのトレーニング中に単語をセグメントする方法を学ぶ。
南アフリカの4つのググニ語でモデルを訓練します。
この結果から,既存のサブワードセグメンテーションの代替として,学習サブワードセグメンテーションが有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-12T18:41:00Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Superbizarre Is Not Superb: Improving BERT's Interpretations of Complex
Words with Derivational Morphology [13.535770763481905]
PLMは連続二重ルートモデル、すなわち複素単語の意味が格納されるか、あるいはサブワードから計算される必要があると解釈できることを示した。
入力トークンの形態的インフォームドボキャブラリを用いた場合, PLMの一般化能力はさらに向上する可能性が示唆された。
論文 参考訳(メタデータ) (2021-01-02T08:36:48Z) - CharBERT: Character-aware Pre-trained Language Model [36.9333890698306]
本稿ではCharBERTという文字認識事前学習言語モデルを提案する。
まず、逐次的文字表現から各トークンに対する文脈単語埋め込みを構築する。
次に、新しい異種相互作用モジュールによって文字とサブワードの表現を融合する。
論文 参考訳(メタデータ) (2020-11-03T07:13:06Z) - Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。
我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-10-24T01:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。