論文の概要: X-SRL: A Parallel Cross-Lingual Semantic Role Labeling Dataset
- arxiv url: http://arxiv.org/abs/2010.01998v1
- Date: Mon, 5 Oct 2020 13:34:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:32:28.405990
- Title: X-SRL: A Parallel Cross-Lingual Semantic Role Labeling Dataset
- Title(参考訳): X-SRL: 並列言語間セマンティックロールラベルデータセット
- Authors: Angel Daza and Anette Frank
- Abstract要約: 本研究では,英語,フランス語,ドイツ語,スペイン語の4言語で並列なSRLコーパスを自動構築する手法を提案する。
我々は,投影品質を測定するために使用する有能なテストセットを含め,プロジェクションが強いベースラインよりも密度が高く,精度が高いことを示す。最後に,モノリンガルSRLとマルチリンガルSRLのための新しいコーパスで異なるSOTAモデルを訓練し,多言語アノテーションが特に弱い言語の性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 18.389328059694037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even though SRL is researched for many languages, major improvements have
mostly been obtained for English, for which more resources are available. In
fact, existing multilingual SRL datasets contain disparate annotation styles or
come from different domains, hampering generalization in multilingual learning.
In this work, we propose a method to automatically construct an SRL corpus that
is parallel in four languages: English, French, German, Spanish, with unified
predicate and role annotations that are fully comparable across languages. We
apply high-quality machine translation to the English CoNLL-09 dataset and use
multilingual BERT to project its high-quality annotations to the target
languages. We include human-validated test sets that we use to measure the
projection quality, and show that projection is denser and more precise than a
strong baseline. Finally, we train different SOTA models on our novel corpus
for mono- and multilingual SRL, showing that the multilingual annotations
improve performance especially for the weaker languages.
- Abstract(参考訳): SRLは多くの言語で研究されているが、英語では大きな改良がなされており、より多くのリソースが利用できる。
実際、既存の多言語SRLデータセットは異なるアノテーションスタイルを含むか、異なるドメインから来ているため、多言語学習における一般化を妨げている。
本研究では,4つの言語(英語,フランス語,ドイツ語,スペイン語)で並列なsrlコーパスを自動的に構築する手法を提案する。
我々は、英語のCoNLL-09データセットに高品質な機械翻訳を適用し、多言語BERTを用いて、その高品質なアノテーションをターゲット言語に投影する。
プロジェクションの品質を測定するために使用する有能なテストセットを含め、プロジェクションが強いベースラインよりも密で正確であることを示す。
最後に、単言語および多言語SRLのための新しいコーパス上で異なるSOTAモデルを訓練し、多言語アノテーションが特に弱い言語の性能を向上させることを示す。
関連論文リスト
- Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Cross-Lingual Semantic Role Labeling with High-Quality Translated
Training Corpus [41.031187560839555]
言語間セマンティックロールのラベル付けは、この問題に対処するための有望な方法である。
目的言語のための高品質なトレーニングデータセットを構築するためのコーパス翻訳に基づく新しい代替案を提案する。
ユニバーサル・プロポーション・バンクの実験結果から, 翻訳法が有効であることが示唆された。
論文 参考訳(メタデータ) (2020-04-14T04:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。