論文の概要: Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity
- arxiv url: http://arxiv.org/abs/2403.05257v1
- Date: Fri, 8 Mar 2024 12:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 19:57:30.321693
- Title: Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity
- Title(参考訳): 言語間移動か機械翻訳か?
単言語意味的テキスト類似性のためのデータ拡張について
- Authors: Sho Hoshino, Akihiko Kato, Soichiro Murakami, Peinan Zhang
- Abstract要約: Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
- 参考スコア(独自算出の注目度): 2.422759879602353
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning better sentence embeddings leads to improved performance for natural
language understanding tasks including semantic textual similarity (STS) and
natural language inference (NLI). As prior studies leverage large-scale labeled
NLI datasets for fine-tuning masked language models to yield sentence
embeddings, task performance for languages other than English is often left
behind. In this study, we directly compared two data augmentation techniques as
potential solutions for monolingual STS: (a) cross-lingual transfer that
exploits English resources alone as training data to yield non-English sentence
embeddings as zero-shot inference, and (b) machine translation that coverts
English data into pseudo non-English training data in advance. In our
experiments on monolingual STS in Japanese and Korean, we find that the two
data techniques yield performance on par. Rather, we find a superiority of the
Wikipedia domain over the NLI domain for these languages, in contrast to prior
studies that focused on NLI as training data. Combining our findings, we
demonstrate that the cross-lingual transfer of Wikipedia data exhibits improved
performance, and that native Wikipedia data can further improve performance for
monolingual STS.
- Abstract(参考訳): より良い文の埋め込みを学習すると、意味的テキスト類似性(STS)や自然言語推論(NLI)を含む自然言語理解タスクのパフォーマンスが向上する。
先行研究では、大規模ラベル付きNLIデータセットを使用して、微調整されたマスキング言語モデルを用いて文の埋め込みを生成するため、英語以外の言語に対するタスクパフォーマンスは、しばしば残されたままである。
本研究では,モノリンガルSTSの潜在的な解決策として,2つのデータ拡張手法を直接比較した。
(a)英語資源のみを訓練データとして活用し、ゼロショット推論として非英語文埋め込みを得る言語間転送
(b)事前に英語データを擬似非英語学習データに隠蔽する機械翻訳。
日本語と韓国語における単言語STSの実験では,2つのデータ技術が同等の性能を発揮することがわかった。
むしろ、これらの言語のNLIドメインよりもWikipediaドメインの方が優れており、トレーニングデータとしてNLIに焦点を当てた以前の研究とは対照的である。
本研究を組み合わせることで,wikipediaデータのクロスリンガル転送は性能の向上,また,wikipediaのネイティブデータは単言語stsの性能をさらに向上できることを示す。
関連論文リスト
- Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Cross-Lingual Transfer Learning for Phrase Break Prediction with
Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。
このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文 参考訳(メタデータ) (2023-06-05T04:10:04Z) - How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。
言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。
MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文 参考訳(メタデータ) (2023-05-22T17:47:41Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。