論文の概要: Multi-view Subword Regularization
- arxiv url: http://arxiv.org/abs/2103.08490v1
- Date: Mon, 15 Mar 2021 16:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 17:15:41.854329
- Title: Multi-view Subword Regularization
- Title(参考訳): マルチビューサブワード正規化
- Authors: Xinyi Wang, Sebastian Ruder, Graham Neubig
- Abstract要約: マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
- 参考スコア(独自算出の注目度): 111.04350390045705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual pretrained representations generally rely on subword
segmentation algorithms to create a shared multilingual vocabulary. However,
standard heuristic algorithms often lead to sub-optimal segmentation,
especially for languages with limited amounts of data. In this paper, we take
two major steps towards alleviating this problem. First, we demonstrate
empirically that applying existing subword regularization methods(Kudo, 2018;
Provilkov et al., 2020) during fine-tuning of pre-trained multilingual
representations improves the effectiveness of cross-lingual transfer. Second,
to take full advantage of different possible input segmentations, we propose
Multi-view Subword Regularization (MVR), a method that enforces the consistency
between predictions of using inputs tokenized by the standard and probabilistic
segmentations. Results on the XTREME multilingual benchmark(Hu et al., 2020)
show that MVR brings consistent improvements of up to 2.5 points over using
standard segmentation algorithms.
- Abstract(参考訳): 多言語事前訓練された表現は、一般に、共有多言語語彙を作成するためにサブワードセグメンテーションアルゴリズムに依存する。
しかし、標準的なヒューリスティックアルゴリズムは、特に限られた量のデータを持つ言語において、しばしば準最適セグメンテーションをもたらす。
本稿では,この問題を緩和するための2つの大きなステップについて述べる。
まず,事前学習された多言語表現の微調整中に既存のサブワード正規化手法(kudo,2018,provilkov,2020)を適用することで,言語間転送の有効性が向上することを示す。
第2に,様々な入力セグメンテーションを最大限に活用するために,標準でトークン化された入力と確率的セグメンテーションとの一貫性を実現するマルチビューサブワード正則化(mvr)を提案する。
XTREMEマルチ言語ベンチマーク(Hu et al., 2020)の結果、MVRは標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことが示された。
関連論文リスト
- MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Single Model Ensemble for Subword Regularized Models in Low-Resource
Machine Translation [25.04086897886412]
サブワード正規化は、トレーニング中に複数のサブワードセグメンテーションを使用して、ニューラルネットワーク翻訳モデルの堅牢性を改善する。
この矛盾に対処するための推論戦略を提案する。
実験結果から,提案手法はサブワード正規化を訓練したモデルの性能を向上させることが示された。
論文 参考訳(メタデータ) (2022-03-25T09:25:47Z) - PARADISE: Exploiting Parallel Data for Multilingual Sequence-to-Sequence
Pretraining [19.785343302320918]
PARADISE (PARAllel & Denoising Integration in Sequence-to-Sequence Model)を提案する。
これは、(i)マルチリンガル辞書に従ってノイズシーケンス中の単語を置換し、(ii)パラレルコーパスに従って参照翻訳を予測することによって、これらのモデルを訓練するために使用される従来の認知目標を拡張する。
機械翻訳および言語間自然言語推論実験により, 並列データから事前学習への統合により, BLEU点2.0点, 精度6.7点の平均的改善が得られた。
論文 参考訳(メタデータ) (2021-08-04T07:32:56Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Filtered Inner Product Projection for Crosslingual Embedding Alignment [28.72288652451881]
フィルタ内積投影(FIPP)は、埋め込みを共通表現空間にマッピングする手法である。
FIPPは、ソースとターゲットの埋め込みが異なる次元である場合でも適用可能である。
提案手法は,MUSEデータセット上の既存の手法よりも,様々な言語ペアに対して優れていることを示す。
論文 参考訳(メタデータ) (2020-06-05T19:53:30Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。