論文の概要: RuBQ: A Russian Dataset for Question Answering over Wikidata
- arxiv url: http://arxiv.org/abs/2005.10659v1
- Date: Thu, 21 May 2020 14:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:28:46.312704
- Title: RuBQ: A Russian Dataset for Question Answering over Wikidata
- Title(参考訳): RuBQ:Wikidataに関する質問に対するロシアのデータセット
- Authors: Vladislav Korablinov and Pavel Braslavski
- Abstract要約: RuBQは、ロシア初の知識ベース質問応答(KBQA)データセットである。
高品質のデータセットは、複雑さの異なる1500のロシアの質問、彼らの英語機械翻訳、WikidataへのSPARQLクエリ、参照回答、ロシアのラベルを含む3つのエンティティのWikidataサンプルで構成されている。
- 参考スコア(独自算出の注目度): 3.394278383312621
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The paper presents RuBQ, the first Russian knowledge base question answering
(KBQA) dataset. The high-quality dataset consists of 1,500 Russian questions of
varying complexity, their English machine translations, SPARQL queries to
Wikidata, reference answers, as well as a Wikidata sample of triples containing
entities with Russian labels. The dataset creation started with a large
collection of question-answer pairs from online quizzes. The data underwent
automatic filtering, crowd-assisted entity linking, automatic generation of
SPARQL queries, and their subsequent in-house verification.
- Abstract(参考訳): 本稿では,ロシア初の知識ベース質問応答(KBQA)データセットであるRuBQについて述べる。
高品質のデータセットは、複雑さの異なる1500のロシアの質問、彼らの英語機械翻訳、WikidataへのSPARQLクエリ、参照回答、およびロシアのラベルを持つエンティティを含む3つ組のWikidataサンプルで構成されている。
データセットの作成は、オンラインクイズからの質問と回答のペアの大規模なコレクションから始まった。
データは、自動フィルタリング、クラウドアシストエンティティリンク、SPARQLクエリの自動生成、およびその後の社内検証が行われた。
関連論文リスト
- Integrating SPARQL and LLMs for Question Answering over Scholarly Data Sources [0.0]
本稿では,SPARQLクエリ,分割と計算アルゴリズム,およびBERTベースのケース-SQuad2予測を組み合わせた方法論について述べる。
Exact MatchとFスコアのメトリクスで評価されたこの手法は、学術的な文脈におけるQAの精度と効率を改善することを約束している。
論文 参考訳(メタデータ) (2024-09-11T14:50:28Z) - SPINACH: SPARQL-Based Information Navigation for Challenging Real-World Questions [6.933892616704001]
本稿では,Wikidata の "Request a Query" フォーラムでの議論から収集した KBQA データセットである SPINACH データセットを紹介する。
これらの内部クエリの複雑さはKBQAシステムと呼ばれるもので、大きく、しばしば不完全なスキーマを動的に探索し、それらについて推論することができる。
また、人間の専門家が難解な問題に対処するためにどのようにSPARQLを書くかを模倣する、SPINACHとも呼ばれる、コンテキスト内学習KBQAエージェントも導入しています。
論文 参考訳(メタデータ) (2024-07-16T06:18:21Z) - NewsQs: Multi-Source Question Generation for the Inquiring Mind [59.79288644158271]
我々は複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQsを紹介する。
FAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問を,従来のマルチドキュメント要約データセットに拡張する。
論文 参考訳(メタデータ) (2024-02-28T16:59:35Z) - KGConv, a Conversational Corpus grounded in Wikidata [6.451914896767135]
KGConvは、Wikidataの事実に根ざした、71kの会話の大規模なコーパスである。
テンプレート,ヒューマンアノテーション,手作りルール,質問書き換えニューラルモデルを用いて,対応する質問の複数の変種(12件平均12件)を提供する。
KGConvは、Wikidataのトリプルからのシングルターン質問生成、質問書き換え、会話からの質問応答、知識グラフからの質問応答、クイズ生成など、他の世代や分析タスクにも利用できる。
論文 参考訳(メタデータ) (2023-08-29T13:35:51Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - WikiOmnia: generative QA corpus on the whole Russian Wikipedia [0.2132096006921048]
Wiki Omniaデータセットは、新しい公開QAペアとそれに対応するロシアのウィキペディア記事要約セクションである。
データセットには、ロシア語に関するウィキペディアの記事がすべて含まれている。
結果として得られたデータセットには、ロシアのウィキペディア全体の生データ(7,930,873 QA対、ruGPT-3 XL段落7,991,040 QA対、ruT5-large段落7,991,040 QA対)と厳格な自動検証データが含まれる。
論文 参考訳(メタデータ) (2022-04-17T12:59:36Z) - A Chinese Multi-type Complex Questions Answering Dataset over Wikidata [45.31495982252219]
複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
最近の公開データセットはこの分野で結果を奨励しているが、ほとんど英語に限られている。
最先端のKBQAモデルは、最も人気のある現実世界の知識基盤の1つであるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
論文 参考訳(メタデータ) (2021-11-11T07:39:16Z) - ConditionalQA: A Complex Reading Comprehension Dataset with Conditional
Answers [93.55268936974971]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。
このデータセットを ConditionalQA と呼びます。
本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:16:46Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。