論文の概要: MAUPQA: Massive Automatically-created Polish Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2305.05486v1
- Date: Tue, 9 May 2023 14:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:29:29.696741
- Title: MAUPQA: Massive Automatically-created Polish Question Answering Dataset
- Title(参考訳): MAUPQA: 大量の自動生成ポーランド質問回答データセット
- Authors: Piotr Rybak
- Abstract要約: オープンドメインの質問応答システムは、ニューラルパスレトリバーをトレーニングするための注釈付きデータセットに大きく依存し始めている。
弱ラベル付きデータセットを自動的に収集する方法を示し、ニューラルパス検索モデルの性能にどのように影響するかを示す。
本研究の結果,ポーランド語とHerBERT-QAニューラルレトリバーのための40万近い質問パスペアからなるMAUPQAデータセットを公表した。
- 参考スコア(独自算出の注目度): 1.6752182911522522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, open-domain question answering systems have begun to rely heavily
on annotated datasets to train neural passage retrievers. However, manually
annotating such datasets is both difficult and time-consuming, which limits
their availability for less popular languages. In this work, we experiment with
several methods for automatically collecting weakly labeled datasets and show
how they affect the performance of the neural passage retrieval models. As a
result of our work, we publish the MAUPQA dataset, consisting of nearly 400,000
question-passage pairs for Polish, as well as the HerBERT-QA neural retriever.
- Abstract(参考訳): 近年、オープンドメインの質問応答システムは、神経通路レトリバーを訓練するための注釈付きデータセットに大きく依存し始めている。
しかし、このようなデータセットを手動でアノテートするのは困難かつ時間のかかる作業であり、あまり普及しない言語での使用は制限されている。
本研究では,弱いラベル付きデータセットを自動的に収集する手法を複数実験し,ニューラルネットワークの経路探索モデルの性能にどのように影響するかを示す。
本研究の結果,ポーランド語とHerBERT-QAニューラルレトリバーのための40万近い質問パスペアからなるMAUPQAデータセットを公表した。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual
Open-retrieval Question Answering System [16.89747171947662]
本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。
この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。
データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
論文 参考訳(メタデータ) (2022-05-30T10:31:08Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training [21.07506671340319]
本稿では,Common Crawlプロジェクトに基づく質問応答データセットを提案する。
我々は、約1億3000万の多言語問合せ対を抽出し、約6000万の英語データポイントを抽出した。
これまでに見つからなかった自然QAペア数を用いて、質問応答タスクのための大規模ドメイン事前学習の可能性を示すために、人気のある言語モデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-14T21:23:01Z) - VANiLLa : Verbalized Answers in Natural Language at Large Scale [2.9098477555578333]
このデータセットは、CSQAとSimpleQuestionsWikidataデータセットから適応された100万以上の単純な質問で構成されている。
このデータセットの回答文は、三つの事実よりも構文的に、意味的に質問に近い。
論文 参考訳(メタデータ) (2021-05-24T16:57:54Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。