論文の概要: MaxMatch-Dropout: Subword Regularization for WordPiece
- arxiv url: http://arxiv.org/abs/2209.04126v1
- Date: Fri, 9 Sep 2022 05:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:33:51.895031
- Title: MaxMatch-Dropout: Subword Regularization for WordPiece
- Title(参考訳): MaxMatch-Dropout: WordPieceのサブワード正規化
- Authors: Tatsuya Hiraoka
- Abstract要約: 提案手法であるMaxMatch-Dropoutは,最大マッチングアルゴリズムを用いて単語をランダムに検索する。
BERTベースのような訓練済み言語モデルのサブワード正規化による微調整を実現する。
- 参考スコア(独自算出の注目度): 3.167685495996986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a subword regularization method for WordPiece, which uses a
maximum matching algorithm for tokenization. The proposed method,
MaxMatch-Dropout, randomly drops words in a search using the maximum matching
algorithm. It realizes finetuning with subword regularization for popular
pretrained language models such as BERT-base. The experimental results
demonstrate that MaxMatch-Dropout improves the performance of text
classification and machine translation tasks as well as other subword
regularization methods. Moreover, we provide a comparative analysis of subword
regularization methods: subword regularization with SentencePiece (Unigram),
BPE-Dropout, and MaxMatch-Dropout.
- Abstract(参考訳): 本稿では,トークン化に最大マッチングアルゴリズムを用いるWordPieceのサブワード正規化手法を提案する。
提案手法であるMaxMatch-Dropoutは,最大マッチングアルゴリズムを用いて単語をランダムに検索する。
BERTベースのような訓練済み言語モデルのサブワード正規化による微調整を実現する。
実験の結果,MaxMatch-Dropoutはテキスト分類や機械翻訳タスク,その他のサブワード正規化手法の性能を向上させることがわかった。
さらに,SentencePiece (Unigram), BPE-Dropout, MaxMatch-Dropout を用いたサブワード正規化手法の比較分析を行った。
関連論文リスト
- SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting [5.697227044927832]
キーワードは最大キーワード長でバウンドされることが多いが、これは以前の作品ではほとんど上回っていない。
本稿では,より粒度の細かい音声テキスト関係を学習するためのサブシーケンスレベルのマッチング方式を提案する。
提案手法は、ハードデータセットのベースライン結果を改善し、AUCを88.52ドルから94.9ドルに引き上げ、EERを18.82ドルから11.1ドルに下げる。
論文 参考訳(メタデータ) (2024-09-06T01:08:29Z) - Distributional Properties of Subword Regularization [25.824110425757198]
BPEとMaxMatchは2つの人気のあるサブワードトークン化スキームであり、ドロップアウト正規化のバリエーションがある。
これらの変種は、単語ごとのトークン化の小さなセットに大きく偏っていることを示す。
既存のトークン化の側面の代替として使用するトークン化を均一に行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-21T08:53:35Z) - Contextualized Automatic Speech Recognition with Dynamic Vocabulary [41.892863381787684]
本稿では,推論中にバイアストークンを付加できる動的語彙を提案する。
バイアスリストの各エントリは、既存のサブワードトークンのシーケンスとは異なり、単一のトークンとして表現される。
実験の結果,提案手法は英語と日本語のデータセットにおけるバイアスフレーズWERを3.1~4.9ポイント改善することがわかった。
論文 参考訳(メタデータ) (2024-05-22T05:03:39Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。
我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-10-24T01:08:28Z) - PBoS: Probabilistic Bag-of-Subwords for Generalizing Word Embedding [16.531103175919924]
単語の埋め込みを一般化する作業について検討する。
有限語彙上の事前訓練された単語ベクトルの集合が与えられた場合、その目標は語彙外単語に対する埋め込みベクトルを予測することである。
サブワードセグメント化を同時にモデル化し,サブワードをベースとした合成単語の埋め込みを計算できるモデルを提案する。
論文 参考訳(メタデータ) (2020-10-21T08:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。