論文の概要: MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual
Word-in-Context Disambiguation using Augmented Data, Signals, and
Transformers
- arxiv url: http://arxiv.org/abs/2104.01567v1
- Date: Sun, 4 Apr 2021 08:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:43:45.866416
- Title: MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual
Word-in-Context Disambiguation using Augmented Data, Signals, and
Transformers
- Title(参考訳): MCL@IITK at SemEval-2021 Task 2: Augmented Data, Signals, Transformer を用いた多言語・多言語語間単語の曖昧化
- Authors: Rohan Gupta, Jay Mundra, Deepak Mahajan, Ashutosh Modi
- Abstract要約: 我々はSemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) の解法を提案する。
目的は、両方の文に共通する単語が同じ意味を引き起こすかどうかを検出することである。
多言語とクロスリンガルの両方の設定のためのシステムを提出します。
- 参考スコア(独自算出の注目度): 1.869621561196521
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we present our approach for solving the SemEval 2021 Task 2:
Multilingual and Cross-lingual Word-in-Context Disambiguation (MCL-WiC). The
task is a sentence pair classification problem where the goal is to detect
whether a given word common to both the sentences evokes the same meaning. We
submit systems for both the settings - Multilingual (the pair's sentences
belong to the same language) and Cross-Lingual (the pair's sentences belong to
different languages). The training data is provided only in English.
Consequently, we employ cross-lingual transfer techniques. Our approach employs
fine-tuning pre-trained transformer-based language models, like ELECTRA and
ALBERT, for the English task and XLM-R for all other tasks. To improve these
systems' performance, we propose adding a signal to the word to be
disambiguated and augmenting our data by sentence pair reversal. We further
augment the dataset provided to us with WiC, XL-WiC and SemCor 3.0. Using
ensembles, we achieve strong performance in the Multilingual task, placing
first in the EN-EN and FR-FR sub-tasks. For the Cross-Lingual setting, we
employed translate-test methods and a zero-shot method, using our multilingual
models, with the latter performing slightly better.
- Abstract(参考訳): 本稿では,SemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) を解くためのアプローチを提案する。
タスクは、両方の文に共通する単語が同じ意味を持つかどうかを検出することを目的とした文対分類問題である。
複数言語 (ペアの文は同一言語に属する) とクロスリンガル (ペアの文は異なる言語に属する) の2つの設定のためのシステムを提案する。
トレーニングデータは英語でのみ提供される。
その結果,言語間伝達技術が採用される。
本手法では,英語タスクにはELECTRAやALBERT,その他のタスクにはXLM-Rといった,微調整済みのトランスフォーマーベース言語モデルを用いる。
これらのシステムの性能を改善するために,不明瞭な単語に信号を追加すること,文対逆転によるデータの増大を提案する。
WiC、XL-WiC、SemCor 3.0で提供されるデータセットをさらに強化します。
アンサンブルを用いて多言語タスクにおいて,EN-ENとFR-FRのサブタスクで第1位となる高い性能を達成する。
クロスリンガル設定では,多言語モデルを用いて翻訳テスト法とゼロショット法を用い,後者では若干性能が向上した。
関連論文リスト
- AAdaM at SemEval-2024 Task 1: Augmentation and Adaptation for Multilingual Semantic Textual Relatedness [16.896143197472114]
本稿では,アフリカとアジアの言語に対するセマンティックテキスト関連性(SemEval-2024 Task 1: Semantic Textual Relatedness)について述べる。
本稿では,限られたトレーニングデータの低リソース化問題に対処するために,機械翻訳によるデータ拡張を提案する。
我々のシステムは、サブタスクA(教師付き学習)とサブタスクC(言語間の移動)の両方において、すべてのチームの中で最善を尽くします。
論文 参考訳(メタデータ) (2024-04-01T21:21:15Z) - CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task
Information Retrieval [5.97515243922116]
本稿では,多言語多タスク情報検索におけるMRL2023共有タスクのためのチャールズ大学システムを提案する。
共有タスクの目的は、いくつかの未表現言語で名前付きエンティティ認識と質問応答のためのシステムを開発することである。
両方のサブタスクに対する私たちのソリューションは、翻訳テストのアプローチに依存しています。
論文 参考訳(メタデータ) (2023-10-25T10:22:49Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - NLPDove at SemEval-2020 Task 12: Improving Offensive Language Detection
with Cross-lingual Transfer [10.007363787391952]
本稿では,攻撃的言語を多言語で識別する手法について述べる。
本研究では,異なるしきい値を持つ半教師付きラベルの追加と,データ選択による言語間移動という2つのデータ拡張戦略について検討する。
われわれの多言語システムはOffensEval 2020でギリシャ語、デンマーク語、トルコ語で競争の結果を得た。
論文 参考訳(メタデータ) (2020-08-04T06:20:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。