論文の概要: Improved Multilingual Language Model Pretraining for Social Media Text
via Translation Pair Prediction
- arxiv url: http://arxiv.org/abs/2110.10318v1
- Date: Wed, 20 Oct 2021 00:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-24 05:00:10.341150
- Title: Improved Multilingual Language Model Pretraining for Social Media Text
via Translation Pair Prediction
- Title(参考訳): 翻訳ペア予測によるソーシャルメディアテキストの多言語モデル事前学習の改善
- Authors: Shubhanshu Mishra, Aria Haghighi
- Abstract要約: ソーシャルメディアコーパス上でmBERTのゼロショット多言語移動を改善するための簡単なアプローチを評価する。
提案手法は,ソースターゲット言語間の翻訳へのアクセスを前提としている。
英語からヒンディー語,アラビア語,日本語へのゼロショット移行において,mBERT単独でのTPP事前訓練の改善を示す。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We evaluate a simple approach to improving zero-shot multilingual transfer of
mBERT on social media corpus by adding a pretraining task called translation
pair prediction (TPP), which predicts whether a pair of cross-lingual texts are
a valid translation. Our approach assumes access to translations (exact or
approximate) between source-target language pairs, where we fine-tune a model
on source language task data and evaluate the model in the target language. In
particular, we focus on language pairs where transfer learning is difficult for
mBERT: those where source and target languages are different in script,
vocabulary, and linguistic typology. We show improvements from TPP pretraining
over mBERT alone in zero-shot transfer from English to Hindi, Arabic, and
Japanese on two social media tasks: NER (a 37% average relative improvement in
F1 across target languages) and sentiment classification (12% relative
improvement in F1) on social media text, while also benchmarking on a
non-social media task of Universal Dependency POS tagging (6.7% relative
improvement in accuracy). Our results are promising given the lack of social
media bitext corpus. Our code can be found at:
https://github.com/twitter-research/multilingual-alignment-tpp.
- Abstract(参考訳): ソーシャルメディアコーパス上でmBERTのゼロショット多言語変換を改善するための簡単なアプローチとして,翻訳ペア予測(TPP)と呼ばれる事前学習タスクを追加し,一対のクロスランガルテキストが有効な翻訳であるかどうかを予測する。
このアプローチでは、ソースとターゲットの言語ペア間の翻訳(実か近似か)へのアクセスを想定し、ソース言語タスクデータにモデルを微調整し、対象言語におけるモデルを評価する。
特に,mBERTでは移動学習が困難である言語対に着目し,文字・語彙・言語型でソース言語とターゲット言語が異なる言語に焦点をあてる。
我々は,英語からヒンディー語,アラビア語,日本語へのゼロショット移行において,mBERT単独でのTPPトレーニングの改善を示す。NER(ターゲット言語間のF1の平均的改善率37%)とソーシャルメディアテキストにおける感情分類(12%)であると同時に,ユニバーサル依存POSタグ付けによる非ソーシャルメディアタスクのベンチマーク(6.7%)である。
ソーシャルメディアのbitextコーパスが不足しているため、私たちの結果は有望です。
コードはhttps://github.com/twitter-research/multilingual-alignment-tpp.com/で確認できます。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - A Commonsense-Infused Language-Agnostic Learning Framework for Enhancing
Prediction of Political Polarity in Multilingual News Headlines [0.0]
対象言語における推論知識を取得するために,翻訳と検索の手法を用いる。
次に、重要な推論を強調するために注意機構を使用します。
我々は、それぞれの政治的極性に注釈を付けた5つのヨーロッパ言語で62.6K以上の多言語ニュースの見出しを提示する。
論文 参考訳(メタデータ) (2022-12-01T06:07:01Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。