論文の概要: MaiNLP at SemEval-2024 Task 1: Analyzing Source Language Selection in Cross-Lingual Textual Relatedness
- arxiv url: http://arxiv.org/abs/2404.02570v1
- Date: Wed, 3 Apr 2024 08:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:00:28.428359
- Title: MaiNLP at SemEval-2024 Task 1: Analyzing Source Language Selection in Cross-Lingual Textual Relatedness
- Title(参考訳): MaiNLP at SemEval-2024 Task 1:Analytics Source Language Selection in Cross-Lingual Textual Relatedness (英語)
- Authors: Shijia Zhou, Huangyan Shan, Barbara Plank, Robert Litschko,
- Abstract要約: 本稿では,SemEval-2024 Task 1: Semantic Textual Relatedness (STR) on Track C: Cross-lingualについて述べる。
本課題は,目的言語における2つの文の意味的関連性を検出することを目的としている。
私たちの提出は、C8テストセット(Kinyarwanda)で1位を獲得しました。
- 参考スコア(独自算出の注目度): 23.947119147068925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our system developed for the SemEval-2024 Task 1: Semantic Textual Relatedness (STR), on Track C: Cross-lingual. The task aims to detect semantic relatedness of two sentences in a given target language without access to direct supervision (i.e. zero-shot cross-lingual transfer). To this end, we focus on different source language selection strategies on two different pre-trained languages models: XLM-R and Furina. We experiment with 1) single-source transfer and select source languages based on typological similarity, 2) augmenting English training data with the two nearest-neighbor source languages, and 3) multi-source transfer where we compare selecting on all training languages against languages from the same family. We further study machine translation-based data augmentation and the impact of script differences. Our submission achieved the first place in the C8 (Kinyarwanda) test set.
- Abstract(参考訳): 本稿では,SemEval-2024 Task 1: Semantic Textual Relatedness (STR) on Track C: Cross-lingualについて述べる。
このタスクは、直接の監督(ゼロショットの言語間移動)にアクセスできることなく、与えられた対象言語における2つの文の意味的関連性を検出することを目的としている。
この目的のために、XLM-RとFurinaという2つの異なる事前訓練された言語モデルに対して、異なるソース言語選択戦略に焦点を当てる。
実験する
1) 類型的類似性に基づく単一ソース転送と選択ソース言語
2 最寄りの2つのソース言語による英語のトレーニングデータの拡大、及び
3) マルチソース・トランスファーでは、同じ家庭の言語に対して、すべてのトレーニング言語を選択します。
さらに、機械翻訳に基づくデータ拡張と、スクリプトの違いの影響について研究する。
私たちの提出は、C8テストセット(Kinyarwanda)で1位を獲得しました。
関連論文リスト
- Event Extraction in Basque: Typologically motivated Cross-Lingual Transfer-Learning Analysis [18.25948580496853]
低リソース言語におけるイベント抽出では,言語間移動学習が広く用いられている。
本稿では,ソース言語とターゲット言語との類型的類似性が,言語間移動の性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-09T15:35:41Z) - DA-Net: A Disentangled and Adaptive Network for Multi-Source
Cross-Lingual Transfer Learning [11.78085199896157]
マルチソースの言語間変換学習は、複数のラベル付けされたソース言語から、言語シフトの下でラベル付けされていないターゲット言語へのタスク知識の転送を扱う。
本稿では,これらの課題に対処する分散適応ネットワーク(DA-Net)を提案する。
論文 参考訳(メタデータ) (2024-03-07T02:30:46Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - NLNDE at SemEval-2023 Task 12: Adaptive Pretraining and Source Language
Selection for Low-Resource Multilingual Sentiment Analysis [11.05909046179595]
本稿では,SemEval-2023タスク12「Twitterデータセットを用いた低リソースアフリカの言語に対する感性分析」のために開発したシステムについて述べる。
対象言語とタスクに事前訓練されたモデルを適用すると、小さいが関連するコーパスを使うことで、F1スコア以上のパフォーマンスが著しく向上する。
共有タスクでは、15トラック中8トラックが勝利し、特に多言語評価において最善を尽くす。
論文 参考訳(メタデータ) (2023-04-28T21:02:58Z) - Zero-shot cross-lingual transfer language selection using linguistic
similarity [3.029434408969759]
本研究では,異なる自然言語処理タスクを対象とした移動言語の選択について検討する。
この研究のために、私たちは3つの言語ファミリーから8つの異なる言語からのデータセットを使用しました。
論文 参考訳(メタデータ) (2023-01-31T15:56:40Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。