論文の概要: CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task
Information Retrieval
- arxiv url: http://arxiv.org/abs/2310.16528v1
- Date: Wed, 25 Oct 2023 10:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 15:23:52.474142
- Title: CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task
Information Retrieval
- Title(参考訳): 多言語マルチタスク情報検索におけるMRL 2023共有タスクへのCUNIの提出
- Authors: Jind\v{r}ich Helcl and Jind\v{r}ich Libovick\'y
- Abstract要約: 本稿では,多言語多タスク情報検索におけるMRL2023共有タスクのためのチャールズ大学システムを提案する。
共有タスクの目的は、いくつかの未表現言語で名前付きエンティティ認識と質問応答のためのシステムを開発することである。
両方のサブタスクに対する私たちのソリューションは、翻訳テストのアプローチに依存しています。
- 参考スコア(独自算出の注目度): 5.97515243922116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Charles University system for the MRL~2023 Shared Task on
Multi-lingual Multi-task Information Retrieval. The goal of the shared task was
to develop systems for named entity recognition and question answering in
several under-represented languages. Our solutions to both subtasks rely on the
translate-test approach. We first translate the unlabeled examples into English
using a multilingual machine translation model. Then, we run inference on the
translated data using a strong task-specific model. Finally, we project the
labeled data back into the original language. To keep the inferred tags on the
correct positions in the original language, we propose a method based on
scoring the candidate positions using a label-sensitive translation model. In
both settings, we experiment with finetuning the classification models on the
translated data. However, due to a domain mismatch between the development data
and the shared task validation and test sets, the finetuned models could not
outperform our baselines.
- Abstract(参考訳): 本稿では,多言語多タスク情報検索におけるMRL〜2023共有タスクのためのチャールズ大学システムを提案する。
共有タスクの目的は、いくつかの未表現言語で名前付きエンティティ認識と質問応答システムを開発することである。
両方のサブタスクに対する私たちのソリューションは、翻訳テストアプローチに依存しています。
まず、ラベルのない例を多言語機械翻訳モデルを用いて英語に翻訳する。
次に,強いタスク固有モデルを用いて変換データ上で推論を行う。
最後に、ラベル付きデータを元の言語に投影する。
推定されたタグを元の言語の正しい位置に保つために,ラベルに敏感な翻訳モデルを用いて候補位置をスコア付けする手法を提案する。
いずれの場合も,翻訳データの分類モデルを微調整する実験を行った。
しかし、開発データと共有タスク検証とテストセットのドメインミスマッチのため、微調整されたモデルはベースラインを上回りませんでした。
関連論文リスト
- Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual
Word-in-Context Disambiguation using Augmented Data, Signals, and
Transformers [1.869621561196521]
我々はSemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) の解法を提案する。
目的は、両方の文に共通する単語が同じ意味を引き起こすかどうかを検出することである。
多言語とクロスリンガルの両方の設定のためのシステムを提出します。
論文 参考訳(メタデータ) (2021-04-04T08:49:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。