論文の概要: A Chinese Multi-type Complex Questions Answering Dataset over Wikidata
- arxiv url: http://arxiv.org/abs/2111.06086v1
- Date: Thu, 11 Nov 2021 07:39:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 13:33:17.693994
- Title: A Chinese Multi-type Complex Questions Answering Dataset over Wikidata
- Title(参考訳): ウィキデータを用いた中国語多型複合質問
- Authors: Jianyun Zou and Min Yang and Lichao Zhang and Yechen Xu and Qifan Pan
and Fengqing Jiang and Ran Qin and Shushu Wang and Yifan He and Songfang
Huang and Zhou Zhao
- Abstract要約: 複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
最近の公開データセットはこの分野で結果を奨励しているが、ほとんど英語に限られている。
最先端のKBQAモデルは、最も人気のある現実世界の知識基盤の1つであるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
- 参考スコア(独自算出の注目度): 45.31495982252219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex Knowledge Base Question Answering is a popular area of research in
the past decade. Recent public datasets have led to encouraging results in this
field, but are mostly limited to English and only involve a small number of
question types and relations, hindering research in more realistic settings and
in languages other than English. In addition, few state-of-the-art KBQA models
are trained on Wikidata, one of the most popular real-world knowledge bases. We
propose CLC-QuAD, the first large scale complex Chinese semantic parsing
dataset over Wikidata to address these challenges. Together with the dataset,
we present a text-to-SPARQL baseline model, which can effectively answer
multi-type complex questions, such as factual questions, dual intent questions,
boolean questions, and counting questions, with Wikidata as the background
knowledge. We finally analyze the performance of SOTA KBQA models on this
dataset and identify the challenges facing Chinese KBQA.
- Abstract(参考訳): 複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
近年の公開データセットはこの分野での成果を奨励しているが、主に英語に限られており、少数の質問タイプと関係に限られており、より現実的な設定や英語以外の言語の研究を妨げる。
さらに、最先端のKBQAモデルは、最も人気のある現実世界の知識基盤であるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
データセットと合わせて,事実質問,二重意図質問,ブール問題,質問数など,複数タイプの複雑な質問に対して,Wikidataを背景知識とするテキストからSPARQLのベースラインモデルを提案する。
最終的に、このデータセット上でのSOTA KBQAモデルの性能を分析し、中国のKBQAが直面する課題を特定する。
関連論文リスト
- SPINACH: SPARQL-Based Information Navigation for Challenging Real-World Questions [6.933892616704001]
本稿では,Wikidata の "Request a Query" フォーラムでの議論から収集した KBQA データセットである SPINACH データセットを紹介する。
これらの内部クエリの複雑さはKBQAシステムと呼ばれるもので、大きく、しばしば不完全なスキーマを動的に探索し、それらについて推論することができる。
また、人間の専門家が難解な問題に対処するためにどのようにSPARQLを書くかを模倣する、SPINACHとも呼ばれる、コンテキスト内学習KBQAエージェントも導入しています。
論文 参考訳(メタデータ) (2024-07-16T06:18:21Z) - NLQxform: A Language Model-based Question to SPARQL Transformer [8.698533396991554]
本稿では,NLQxform と呼ばれる質問応答システムを提案する。
NLQxformでは、自然言語の質問で複雑なクエリ意図を表現できる。
トランスフォーマーベースの言語モデル、すなわちBARTは、質問を標準のSPARQLクエリに変換するために使用される。
論文 参考訳(メタデータ) (2023-11-08T21:41:45Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - A Benchmark for Generalizable and Interpretable Temporal Question
Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。
Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文 参考訳(メタデータ) (2022-01-15T08:49:09Z) - Multilingual Compositional Wikidata Questions [9.602430657819564]
ウィキデータに基づく複数言語で並列な問合せ対のデータセットを作成する手法を提案する。
このデータを使って、ヘブライ語、カンナダ語、中国語、英語のセマンティクスをトレーニングし、多言語セマンティクス解析の現在の強みと弱点をよりよく理解します。
論文 参考訳(メタデータ) (2021-08-07T19:40:38Z) - A Survey on Complex Question Answering over Knowledge Base: Recent
Advances and Challenges [71.4531144086568]
知識ベース(KB)に対する質問回答(QA)は、自然言語の質問に自動的に答えることを目的としている。
研究者は、よりKBのトリプルと制約推論を必要とする単純な質問から複雑な質問へと注意を移した。
論文 参考訳(メタデータ) (2020-07-26T07:13:32Z) - RuBQ: A Russian Dataset for Question Answering over Wikidata [3.394278383312621]
RuBQは、ロシア初の知識ベース質問応答(KBQA)データセットである。
高品質のデータセットは、複雑さの異なる1500のロシアの質問、彼らの英語機械翻訳、WikidataへのSPARQLクエリ、参照回答、ロシアのラベルを含む3つのエンティティのWikidataサンプルで構成されている。
論文 参考訳(メタデータ) (2020-05-21T14:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。