論文の概要: Pir\'a: A Bilingual Portuguese-English Dataset for Question-Answering
about the Ocean
- arxiv url: http://arxiv.org/abs/2202.02398v1
- Date: Fri, 4 Feb 2022 21:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 15:44:35.009026
- Title: Pir\'a: A Bilingual Portuguese-English Dataset for Question-Answering
about the Ocean
- Title(参考訳): Pir\'a: 海に関する質問に答えるバイリンガルなポルトガル語と英語のデータセット
- Authors: Andr\'e F. A. Paschoal, Paulo Pirozelli, Valdinei Freire, Karina V.
Delgado, Sarajane M. Peres, Marcos M. Jos\'e, Fl\'avio Nakasato, Andr\'e S.
Oliveira, Anarosa A. F. Brand\~ao, Anna H. R. Costa, Fabio G. Cozman
- Abstract要約: 本稿では,ポルトガル語と英語の両方で,海とブラジルの海岸に関する質問と回答の集合であるPir'aデータセットについて述べる。
Pir'aデータセットは、両方の言語で適切にキュレートされた質問/回答セット(QA)からなる。
我々は,質問応答,情報検索,機械翻訳など,NLPにおけるタスクセットをサポートするため,Pir'aの利点と限界について論じる。
- 参考スコア(独自算出の注目度): 1.1837802026343334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current research in natural language processing is highly dependent on
carefully produced corpora. Most existing resources focus on English; some
resources focus on languages such as Chinese and French; few resources deal
with more than one language. This paper presents the Pir\'a dataset, a large
set of questions and answers about the ocean and the Brazilian coast both in
Portuguese and English. Pir\'a is, to the best of our knowledge, the first QA
dataset with supporting texts in Portuguese, and, perhaps more importantly, the
first bilingual QA dataset that includes this language. The Pir\'a dataset
consists of 2261 properly curated question/answer (QA) sets in both languages.
The QA sets were manually created based on two corpora: abstracts related to
the Brazilian coast and excerpts of United Nation reports about the ocean. The
QA sets were validated in a peer-review process with the dataset contributors.
We discuss some of the advantages as well as limitations of Pir\'a, as this new
resource can support a set of tasks in NLP such as question-answering,
information retrieval, and machine translation.
- Abstract(参考訳): 現在の自然言語処理の研究は、慎重に生産されたコーパスに大きく依存している。
一部の資源は中国語やフランス語などの言語に焦点を当てており、複数の言語を扱う資源はほとんどない。
本稿では,ポルトガル語と英語の両方で,海洋とブラジル沿岸に関する質問と回答のセットであるpir\'aデータセットについて述べる。
Pir\'aは、私たちの知る限りでは、ポルトガル語でテキストをサポートする最初のQAデータセットであり、おそらく、この言語を含む最初のバイリンガルなQAデータセットです。
Pir\'aデータセットは、両方の言語で適切にキュレートされた質問/回答セット(QA)からなる。
qaセットはブラジル沿岸に関する抽象と、海洋に関する国連報告の抜粋という2つのコーパスに基づいて手作業で作成された。
QAデータセットは、データセットコントリビュータによるピアレビュープロセスで検証された。
我々はpir\'aの利点と限界について論じる。この新しいリソースはnlpにおける質問処理、情報検索、機械翻訳といった一連のタスクをサポートすることができる。
関連論文リスト
- INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。
我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。
様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Benchmarks for Pir\'a 2.0, a Reading Comprehension Dataset about the
Ocean, the Brazilian Coast, and Climate Change [0.24091079613649843]
ピロア (Pir'a) は、海洋、ブラジル沿岸、気候変動に焦点を当てた読解データセットである。
このデータセットは多用な言語リソースであり、特に専門的な科学的知識を得るための現在の機械学習モデルの能力をテストするのに有用である。
論文 参考訳(メタデータ) (2023-09-19T21:56:45Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - A Chinese Multi-type Complex Questions Answering Dataset over Wikidata [45.31495982252219]
複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
最近の公開データセットはこの分野で結果を奨励しているが、ほとんど英語に限られている。
最先端のKBQAモデルは、最も人気のある現実世界の知識基盤の1つであるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
論文 参考訳(メタデータ) (2021-11-11T07:39:16Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。