論文の概要: FQuAD: French Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2002.06071v2
- Date: Mon, 25 May 2020 17:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 03:38:21.968707
- Title: FQuAD: French Question Answering Dataset
- Title(参考訳): fquad: フランスの質問応答データセット
- Authors: Martin d'Hoffschmidt, Wacim Belblidia, Tom Brendl\'e, Quentin
Heinrich, Maxime Vidal
- Abstract要約: フランス語質問回答データセット(FQuAD)について紹介する。
FQuADは、ウィキペディアの記事の集合に関する質問と回答のフランス語のNative Readingデータセットである。
テストセット上でF1スコア92.2、正確なマッチング比82.1を達成するベースラインモデルを訓練する。
- 参考スコア(独自算出の注目度): 0.4759823735082845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in the field of language modeling have improved
state-of-the-art results on many Natural Language Processing tasks. Among them,
Reading Comprehension has made significant progress over the past few years.
However, most results are reported in English since labeled resources available
in other languages, such as French, remain scarce. In the present work, we
introduce the French Question Answering Dataset (FQuAD). FQuAD is a French
Native Reading Comprehension dataset of questions and answers on a set of
Wikipedia articles that consists of 25,000+ samples for the 1.0 version and
60,000+ samples for the 1.1 version. We train a baseline model which achieves
an F1 score of 92.2 and an exact match ratio of 82.1 on the test set. In order
to track the progress of French Question Answering models we propose a
leader-board and we have made the 1.0 version of our dataset freely available
at https://illuin-tech.github.io/FQuAD-explorer/.
- Abstract(参考訳): 言語モデリングの分野における最近の進歩は、多くの自然言語処理タスクにおける最先端の結果を改善した。
その中でもReading Comprehensionは,ここ数年で大きな進歩を遂げています。
しかし、フランス語など他の言語で利用可能なラベル付きリソースは少ないため、ほとんどの結果は英語で報告されている。
本研究では,フランス語質問応答データセット(FQuAD)を紹介する。
FQuADはフランス語のNative Reading Comprehensionのデータセットで、ウィキペディアの記事の集合で、1.0バージョンは25,000以上のサンプル、1.1バージョンは6万以上のサンプルで構成されている。
テストセット上でのf1スコア92.2と正確な一致率82.1を達成するベースラインモデルをトレーニングする。
フランスの質問回答モデルの進捗を追跡するため、リーダーボードを提案し、データセットの1.0バージョンをhttps://illuin-tech.github.io/FQuAD-explorer/で無償公開しました。
関連論文リスト
- UQA: Corpus for Urdu Question Answering [3.979019316355144]
本稿では,ウルドゥー語における質問応答とテキスト理解のための新しいデータセットであるUQAを紹介する。
UQAは、大規模な英語QAデータセットであるSQuAD2.0(Stanford Question Answering dataset)を翻訳することによって生成される。
本稿では,Google TranslatorとSeamless M4Tの2つの候補の中から,最適な翻訳モデルを選択し,評価するプロセスについて述べる。
論文 参考訳(メタデータ) (2024-05-02T16:44:31Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Cross-Lingual Knowledge Distillation for Answer Sentence Selection in
Low-Resource Languages [90.41827664700847]
低リソース言語のためのAS2モデルの学習方法として、英語の強力なAS2教師からCLKD(Cross-Lingual Knowledge Distillation)を提案する。
提案手法を評価するために,1)Xtr-WikiQA,(9言語用ウィキQAデータセット,2)TyDi-AS2,8言語にまたがる70万以上の質問を持つ多言語AS2データセットを紹介する。
論文 参考訳(メタデータ) (2023-05-25T17:56:04Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - TaTa: A Multilingual Table-to-Text Dataset for African Languages [32.348630887289524]
アフリカ言語におけるテーブル・トゥ・テキスト(TaTa)は、アフリカ言語に焦点を当てた最初の大規模多言語テーブル・トゥ・テキストデータセットである。
TaTaには、アフリカの4つの言語(Hausa、Igbo、Swahili、Yorub'a)とゼロショットテスト言語(ロシア語)を含む9つの言語で8,700の例が含まれている。
論文 参考訳(メタデータ) (2022-10-31T21:05:42Z) - UQuAD1.0: Development of an Urdu Question Answering Training Data for
Machine Reading Comprehension [0.0]
本研究は,Urdu Question Answering データセット(UQuAD1.0)の半自動作成について検討する。
UQuAD1.0では、45,000対のQAがオリジナルのSQuAD1.0の機械翻訳と約4000対のクラウドソーシングによって生成される。
XLMRoBERTaと多言語BERTを用いて、それぞれ0.66と0.63のF1スコアを取得する。
論文 参考訳(メタデータ) (2021-11-02T12:25:04Z) - FQuAD2.0: French Question Answering and knowing that you know nothing [0.25782420501870296]
我々は FQuAD2.0 を導入し, FQuAD を 17,000 以上の質問で拡張する。
このデータセットは、解答不可能な質問と解答不能な質問を区別する機能を備えた、フレンチ質問回答モデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-09-27T17:30:46Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。