論文の概要: QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers
- arxiv url: http://arxiv.org/abs/2202.00120v1
- Date: Mon, 31 Jan 2022 22:19:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 03:05:35.086039
- Title: QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers
- Title(参考訳): qald-9-plus:dbpediaとwikidataによる質問応答のための多言語データセット
- Authors: Aleksandr Perevalov, Dennis Diefenbach, Ricardo Usbeck, Andreas Both
- Abstract要約: 私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
- 参考スコア(独自算出の注目度): 68.9964449363406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to have the same experience for different user groups (i.e.,
accessibility) is one of the most important characteristics of Web-based
systems. The same is true for Knowledge Graph Question Answering (KGQA) systems
that provide the access to Semantic Web data via natural language interface.
While following our research agenda on the multilingual aspect of accessibility
of KGQA systems, we identified several ongoing challenges. One of them is the
lack of multilingual KGQA benchmarks. In this work, we extend one of the most
popular KGQA benchmarks - QALD-9 by introducing high-quality questions'
translations to 8 languages provided by native speakers, and transferring the
SPARQL queries of QALD-9 from DBpedia to Wikidata, s.t., the usability and
relevance of the dataset is strongly increased. Five of the languages -
Armenian, Ukrainian, Lithuanian, Bashkir and Belarusian - to our best knowledge
were never considered in KGQA research community before. The latter two of the
languages are considered as "endangered" by UNESCO. We call the extended
dataset QALD-9-plus and made it available online
https://github.com/Perevalov/qald_9_plus.
- Abstract(参考訳): 異なるユーザグループ(すなわちアクセシビリティ)に対して同じ経験を持つ能力は、Webベースのシステムの最も重要な特徴の1つである。
自然言語インタフェースを通じてセマンティックWebデータへのアクセスを提供する知識グラフ質問回答システム(KGQA)も同様である。
KGQAシステムのアクセシビリティの多言語的側面に関する研究課題に従いながら、現在進行中の課題をいくつか挙げた。
そのうちの1つは、多言語KGQAベンチマークの欠如である。
本研究では、QALD-9の高品質な質問の翻訳をネイティブスピーカーが提供する8言語に導入し、QALD-9のSPARQLクエリをDBpediaからWikidataに転送することで、データセットのユーザビリティと妥当性が強く向上する。
言語アルメニア語、ウクライナ語、リトアニア語、バシュキル語、ベラルーシ語の5つの言語のうち、最高の知識は、これまでkgqaの研究コミュニティでは考えられなかった。
後者の2言語はユネスコによって「絶滅危惧種」とみなされている。
拡張データセットをQALD-9プラスと呼び、オンラインhttps://github.com/Perevalov/qald_9_plusを利用可能にした。
関連論文リスト
- MST5 -- Multilingual Question Answering over Knowledge Graphs [1.6470999044938401]
知識グラフ質問回答(KGQA)は、自然言語を用いたグラフベースモデルに格納された膨大な知識のクエリを単純化する。
既存の多言語KGQAシステムは、英語システムに匹敵する性能を達成するための課題に直面している。
本稿では,言語コンテキストとエンティティ情報を言語モデルの処理パイプラインに直接組み込むことで,多言語KGQAシステムを強化するための簡易なアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-08T15:37:51Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [58.92057773071854]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - AfriQA: Cross-lingual Open-Retrieval Question Answering for African
Languages [18.689806554953236]
XOR QAシステムは、母国語の人々に仕えながら、他言語からの回答内容を検索する。
AfriQAはアフリカ言語に焦点を当てた最初の言語間QAデータセットです。
AfriQAには10言語にわたる12,000以上のXOR QAサンプルが含まれている。
論文 参考訳(メタデータ) (2023-05-11T15:34:53Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - BigText-QA: Question Answering over a Large-Scale Hybrid Knowledge Graph [23.739432128095107]
BigText-QAは構造化知識グラフに基づいて質問に答えることができる。
その結果,BigText-QAはニューラルネットワークベースのQAシステムであるDrQAよりも優れており,グラフベースの教師なしQAシステムであるQUESTと競合する結果が得られた。
論文 参考訳(メタデータ) (2022-12-12T09:49:02Z) - A Chinese Multi-type Complex Questions Answering Dataset over Wikidata [45.31495982252219]
複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
最近の公開データセットはこの分野で結果を奨励しているが、ほとんど英語に限られている。
最先端のKBQAモデルは、最も人気のある現実世界の知識基盤の1つであるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
論文 参考訳(メタデータ) (2021-11-11T07:39:16Z) - SD-QA: Spoken Dialectal Question Answering for the Real World [15.401330338654203]
われわれは5つの言語(アラビア語、ベンガル語、英語、キスワヒリ語、韓国語)で68k以上の音声プロンプトを、255人の話者から24の方言で作成する。
本稿では,QAシステムの実環境性能を示すベースライン結果を提供し,下流性能に対する言語多様性やその他の感性的話者属性の影響を解析する。
最後に,ASRモデルとQAモデルの妥当性について,基礎となるユーザ数について検討する。
論文 参考訳(メタデータ) (2021-09-24T16:54:27Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。