論文の概要: Reading Comprehension in Czech via Machine Translation and Cross-lingual
Transfer
- arxiv url: http://arxiv.org/abs/2007.01667v1
- Date: Fri, 3 Jul 2020 13:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 05:30:04.768781
- Title: Reading Comprehension in Czech via Machine Translation and Cross-lingual
Transfer
- Title(参考訳): 機械翻訳と言語間伝達によるチェコ語読解
- Authors: Kate\v{r}ina Mackov\'a, Milan Straka
- Abstract要約: この研究は、手動で注釈付けされたチェコのトレーニングデータを必要とせずに、チェコ語で読みやすいシステムを構築することに焦点を当てている。
我々はSQuAD 1.1とSQuAD 2.0データセットをチェコ語に自動翻訳し、トレーニングと開発データを作成しました。
その後,複数のBERTおよびXLM-RoBERTaベースラインモデルの訓練と評価を行った。
- 参考スコア(独自算出の注目度): 2.8273701718153563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reading comprehension is a well studied task, with huge training datasets in
English. This work focuses on building reading comprehension systems for Czech,
without requiring any manually annotated Czech training data. First of all, we
automatically translated SQuAD 1.1 and SQuAD 2.0 datasets to Czech to create
training and development data, which we release at
http://hdl.handle.net/11234/1-3249. We then trained and evaluated several BERT
and XLM-RoBERTa baseline models. However, our main focus lies in cross-lingual
transfer models. We report that a XLM-RoBERTa model trained on English data and
evaluated on Czech achieves very competitive performance, only approximately 2
percent points worse than a~model trained on the translated Czech data. This
result is extremely good, considering the fact that the model has not seen any
Czech data during training. The cross-lingual transfer approach is very
flexible and provides a reading comprehension in any language, for which we
have enough monolingual raw texts.
- Abstract(参考訳): 理解を読むことはよく研究されたタスクであり、英語で膨大なトレーニングデータセットがある。
本研究は,手作業によるチェコ語学習データを必要とせず,チェコ語読解システムの構築に焦点を当てている。
まず、SQuAD 1.1とSQuAD 2.0データセットをチェコに自動翻訳してトレーニングと開発データを作成し、http://hdl.handle.net/11234/1-3249でリリースしました。
その後,複数のBERTおよびXLM-RoBERTaベースラインモデルの訓練と評価を行った。
しかし,我々の主な焦点は言語間伝達モデルである。
我々は、xlm-robertaモデルが英語データに基づいて訓練され、チェコ語で評価された場合、非常に競争力の高い結果が得られると報告した。
このモデルはトレーニング中にチェコのデータを見ていないことから、この結果は極めて良好である。
言語間移動のアプローチは非常に柔軟で、どんな言語でも読みやすいので、十分なモノリンガルの原文が得られます。
関連論文リスト
- CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - CsFEVER and CTKFacts: Czech Datasets for Fact Verification [0.0]
自動ファクトチェック機械学習モデルのトレーニングを目的としたチェコのデータセットを2つ提示する。
最初のデータセットは、約112kのクレームを持つCsFEVERで、有名なウィキペディアベースのFEVERデータセットのチェコ語バージョンを自動生成する。
3,097件からなる2番目のデータセットCTKFactsは、約200万件のチェコのニュースエージェンシーの報道のコーパス上に構築されている。
論文 参考訳(メタデータ) (2022-01-26T18:48:42Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Bilingual Alignment Pre-training for Zero-shot Cross-lingual Transfer [33.680292990007366]
本稿では,埋め込みの整合性を向上し,ゼロショットの言語間転送性能を向上させることを目的とする。
本稿では,従来の知識として統計アライメント情報を用いて,バイリンガル単語予測を導出するアライメント言語モデル(Alignment Language Model, AlignLM)を提案する。
その結果、AlignLMはMLQAおよびXNLIデータセット上でゼロショット性能を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-06-03T10:18:43Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。