論文の概要: The Wikidata Query Logs Dataset
- arxiv url: http://arxiv.org/abs/2602.14594v1
- Date: Mon, 16 Feb 2026 09:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.355923
- Title: The Wikidata Query Logs Dataset
- Title(参考訳): Wikidata Queryがデータセットをログする
- Authors: Sebastian Walter, Hannah Bast,
- Abstract要約: Wikidata Query Logs データセットは,Wikidata 知識グラフ上に200万の質問クエリペアからなるデータセットである。
テンプレート生成クエリを頼らずに、同じフォーマットで既存の最大のWikidataデータセットより6倍も大きい。
本稿では,Wikidataに対するクエリを反復的に非匿名化し,クリーン化し,検証するエージェントベースの手法を提案する。
- 参考スコア(独自算出の注目度): 2.9907607782169543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Wikidata Query Logs (WDQL) dataset, a dataset consisting of 200k question-query pairs over the Wikidata knowledge graph. It is over 6x larger than the largest existing Wikidata datasets of similar format without relying on template-generated queries. Instead, we construct it using real-world SPARQL queries sent to the Wikidata Query Service and generate questions for them. Since these log-based queries are anonymized, and therefore often do not produce results, a significant amount of effort is needed to convert them back into meaningful SPARQL queries. To achieve this, we present an agent-based method that iteratively de-anonymizes, cleans, and verifies queries against Wikidata while also generating corresponding natural-language questions. We demonstrate the dataset's benefit for training question-answering methods. All WDQL assets, as well as the agent code, are publicly available under a permissive license.
- Abstract(参考訳): Wikidata Query Logs(WDQL)データセットは,Wikidataナレッジグラフ上に200万の質問クエリペアからなるデータセットである。
テンプレート生成クエリを頼らずに、同じフォーマットで既存の最大のWikidataデータセットより6倍も大きい。
代わりに、Wikidata Query Serviceに送信された現実世界のSPARQLクエリを使用して構築し、それらに対する質問を生成する。
これらのログベースのクエリは匿名化されているため、結果が得られないことが多いため、意味のあるSPARQLクエリに戻すにはかなりの労力が必要になる。
そこで本研究では,Wikidataに対するクエリを反復的に非匿名化し,クリーン化し,検証するエージェントベースの手法を提案する。
質問応答法をトレーニングする際のデータセットのメリットを実証する。
すべてのWDQLアセットとエージェントコードは、パーミッシブライセンスの下で公開されている。
関連論文リスト
- Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。
2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文 参考訳(メタデータ) (2025-07-22T19:23:03Z) - Database-Augmented Query Representation for Information Retrieval [71.41745087624528]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
我々はDAQuを多様な検索シナリオで検証し、全体の検索性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - Fine-tuned LLMs Know More, Hallucinate Less with Few-Shot
Sequence-to-Sequence Semantic Parsing over Wikidata [6.716263690738313]
本稿では,Wikidataの質の高い質問応答ベンチマークであるWikiWebQuestionsを提案する。
現実世界のデータとSPARQLで構成されている。
IDの代わりにユニークなドメイン名とプロパティ名を使用するように、SPARQLを修正します。
論文 参考訳(メタデータ) (2023-05-23T16:20:43Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - A Chinese Multi-type Complex Questions Answering Dataset over Wikidata [45.31495982252219]
複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
最近の公開データセットはこの分野で結果を奨励しているが、ほとんど英語に限られている。
最先端のKBQAモデルは、最も人気のある現実世界の知識基盤の1つであるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
論文 参考訳(メタデータ) (2021-11-11T07:39:16Z) - SPARQLing Database Queries from Intermediate Question Decompositions [7.475027071883912]
自然言語の質問をデータベースクエリに変換するために、ほとんどのアプローチは、完全に注釈付けされたトレーニングセットに依存している。
データベースの中間問題表現を基盤として,この負担を軽減する。
我々のパイプラインは、自然言語質問を中間表現に変換するセマンティックと、訓練不能なトランスパイラをQLSPARクエリ言語に変換する2つの部分から構成される。
論文 参考訳(メタデータ) (2021-09-13T17:57:12Z) - Creating and Querying Personalized Versions of Wikidata on a Laptop [0.7449724123186383]
KGTK Kypherは、ユーザがノートパソコン上でパーソナライズされたWikidataの変種を作成できるクエリ言語とプロセッサである。
我々は、Kypherがラップトップ上の完全なWikidata KG上で実行可能にする分析のタイプを示すユースケースをいくつか提示する。
論文 参考訳(メタデータ) (2021-08-06T00:00:33Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - Wikidata on MARS [0.20305676256390934]
一般化されたプロパティグラフの形式的データモデルとして,マルチ分散リレーショナル構造 (MARS) が提案されている。
MARPLはプロパティグラフ上の推論ルールを記述するための有用なルールベースのロジックである。
Wikidataは、Wikidataのデータ型を追加する拡張MARSでモデル化することができる。
論文 参考訳(メタデータ) (2020-08-14T22:58:04Z) - RuBQ: A Russian Dataset for Question Answering over Wikidata [3.394278383312621]
RuBQは、ロシア初の知識ベース質問応答(KBQA)データセットである。
高品質のデータセットは、複雑さの異なる1500のロシアの質問、彼らの英語機械翻訳、WikidataへのSPARQLクエリ、参照回答、ロシアのラベルを含む3つのエンティティのWikidataサンプルで構成されている。
論文 参考訳(メタデータ) (2020-05-21T14:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。