Fugu-MT 論文翻訳(概要): Task-Specific Pre-Training and Cross Lingual Transfer for Code-Switched Data

論文の概要: Task-Specific Pre-Training and Cross Lingual Transfer for Code-Switched Data

arxiv url: http://arxiv.org/abs/2102.12407v1
Date: Wed, 24 Feb 2021 16:57:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-25 13:33:46.138642
Title: Task-Specific Pre-Training and Cross Lingual Transfer for Code-Switched Data
Title（参考訳）: コード切り換えデータのタスク固有事前学習と言語間伝達
Authors: Akshat Gupta, Sai Krishna Rallabandi, Alan Black
Abstract要約: 私たちは2つのDravidian Code-Switched言語 - Tamil-EngishとMalayalam-Englishで動作します。タスク固有の事前学習の結果は,多言語BERTモデルからの言語間移動を利用して達成した性能と比較して,ゼロショットおよび教師付き性能に優れることがわかった。
参考スコア（独自算出の注目度）: 4.131137212418897
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Using task-specific pre-training and leveraging cross-lingual transfer are two of the most popular ways to handle code-switched data. In this paper, we aim to compare the effects of both for the task of sentiment analysis. We work with two Dravidian Code-Switched languages - Tamil-Engish and Malayalam-English and four different BERT based models. We compare the effects of task-specific pre-training and cross-lingual transfer and find that task-specific pre-training results in superior zero-shot and supervised performance when compared to performance achieved by leveraging cross-lingual transfer from multilingual BERT models.
Abstract（参考訳）: タスク固有の事前トレーニングと言語間転送の活用は、コード切り換えデータを扱う最も一般的な方法の2つだ。本稿では,感情分析の課題における両者の効果を比較することを目的とする。私たちは2つのDravidian Code-Switched言語 - Tamil-EngishとMalayalam-Englishと4つの異なるBERTベースのモデルで作業しています。本稿では,タスク固有の事前学習と言語間伝達の効果を比較し,タスク固有の事前学習がゼロショットと教師付きパフォーマンスに優れた結果をもたらすことを見出し,多言語bertモデルから言語間伝達を活用した性能と比較した。

関連論文リスト

Investigating the Effect of Parallel Data in the Cross-Lingual Transfer for Vision-Language Encoders [0.0]
トレーニング済みのVision-Language(VL)モデルと下流タスクのトレーニングデータは英語でのみ利用可能である。並列データを用いて、すでに訓練済みのエンコーダを転送する。その結果,機械翻訳されたタスクデータでさえ,平均的,キャプション的,真に並列なデータの方が,いくつかの言語で優れていたことが判明した。
論文参考訳（メタデータ） (2025-04-30T14:19:15Z)
AAdaM at SemEval-2024 Task 1: Augmentation and Adaptation for Multilingual Semantic Textual Relatedness [16.896143197472114]
本稿では,アフリカとアジアの言語に対するセマンティックテキスト関連性(SemEval-2024 Task 1: Semantic Textual Relatedness)について述べる。本稿では,限られたトレーニングデータの低リソース化問題に対処するために,機械翻訳によるデータ拡張を提案する。我々のシステムは、サブタスクA(教師付き学習)とサブタスクC(言語間の移動)の両方において、すべてのチームの中で最善を尽くします。
論文参考訳（メタデータ） (2024-04-01T21:21:15Z)
Synergy with Translation Artifacts for Training and Inference in Multilingual Tasks [11.871523410051527]
本稿では,両翻訳を同時に組み合わせることで,多言語文分類タスクにおける結果の相乗化が可能であることを示す。本研究では,SupCon と MixUp を併用した言語間微調整アルゴリズム MUSC を提案する。
論文参考訳（メタデータ） (2022-10-18T04:55:24Z)
Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文参考訳（メタデータ） (2022-05-20T18:35:38Z)
Bridging Cross-Lingual Gaps During Leveraging the Multilingual Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文参考訳（メタデータ） (2022-04-16T16:08:38Z)
Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。 XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文参考訳（メタデータ） (2021-06-15T15:35:44Z)
MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual Word-in-Context Disambiguation using Augmented Data, Signals, and Transformers [1.869621561196521]
我々はSemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) の解法を提案する。目的は、両方の文に共通する単語が同じ意味を引き起こすかどうかを検出することである。多言語とクロスリンガルの両方の設定のためのシステムを提出します。
論文参考訳（メタデータ） (2021-04-04T08:49:28Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)
CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文参考訳（メタデータ） (2020-06-11T13:15:59Z)
A Study of Cross-Lingual Ability and Language-specific Information in Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文参考訳（メタデータ） (2020-04-20T11:13:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。