論文の概要: Project PIAF: Building a Native French Question-Answering Dataset
- arxiv url: http://arxiv.org/abs/2007.00968v1
- Date: Thu, 2 Jul 2020 08:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:08:13.292771
- Title: Project PIAF: Building a Native French Question-Answering Dataset
- Title(参考訳): Project PIAF: ネイティブなフランス語質問回答データセットの構築
- Authors: Rachel Keraron, Guillaume Lancrenon, Mathilde Bras, Fr\'ed\'eric
Allary, Gilles Moyse, Thomas Scialom, Edmundo-Pavel Soriano-Morales, Jacopo
Staiano
- Abstract要約: 非英語言語のデータ不足,特に質問回答等の下流タスクの評価に感銘を受け,母国フランス語質問回答データセットの収集に参画する。
収集作業のために開発されたアノテーションツールと、得られたデータと予備ベースラインについて記述し、公開する。
- 参考スコア(独自算出の注目度): 7.618414432123536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the lack of data for non-English languages, in particular for
the evaluation of downstream tasks such as Question Answering, we present a
participatory effort to collect a native French Question Answering Dataset.
Furthermore, we describe and publicly release the annotation tool developed for
our collection effort, along with the data obtained and preliminary baselines.
- Abstract(参考訳): 非英語言語のデータの欠如,特に質問応答などの下流タスクの評価に動機づけられ,フランス語母語質問応答データセットを収集するための参加的取り組みを提案する。
さらに,得られたデータと予備ベースラインとともに,収集作業用に開発したアノテーションツールについて記述し,公開する。
関連論文リスト
- Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - GPTs Are Multilingual Annotators for Sequence Generation Tasks [11.59128394819439]
本研究では,大規模言語モデルを用いた自律アノテーション手法を提案する。
提案手法はコスト効率だけでなく,低リソース言語アノテーションにも適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T09:44:02Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual
Open-retrieval Question Answering System [16.89747171947662]
本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。
この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。
データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
論文 参考訳(メタデータ) (2022-05-30T10:31:08Z) - A Survey on non-English Question Answering Dataset [0.0]
この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。
本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
論文 参考訳(メタデータ) (2021-12-27T12:45:06Z) - GermanQuAD and GermanDPR: Improving Non-English Question Answering and
Passage Retrieval [2.5621280373733604]
我々は13,722組の抽出質問/回答ペアのデータセットである GermanQuAD を提示する。
GermanQuADで訓練された抽出QAモデルは、多言語モデルを大幅に上回る。
論文 参考訳(メタデータ) (2021-04-26T17:34:31Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z) - How to Probe Sentence Embeddings in Low-Resource Languages: On
Structural Design Choices for Probing Task Evaluation [82.96358326053115]
構造設計選択に対する探索作業結果の感度について検討する。
我々は、英語で識別する「安定な領域」にある設計選択を多言語で構成した埋め込みを探索する。
私たちは英語の結果が他の言語に移行しないことに気付きます。
論文 参考訳(メタデータ) (2020-06-16T12:37:50Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z) - On the General Value of Evidence, and Bilingual Scene-Text Visual
Question Answering [120.64104995052189]
本稿では,2つの言語で表現された質問を含む,この問題に対処するための一歩を踏み出したデータセットを提案する。
推論を測定することは、偶然に正しい答えを罰することによって、直接一般化を促進する。
データセットはVQA問題のシーンテキストバージョンを反映しており、推論評価は参照表現課題のテキストベースのバージョンと見なすことができる。
論文 参考訳(メタデータ) (2020-02-24T13:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。