論文の概要: Conversational Lexicography: Querying Lexicographic Data on Knowledge Graphs with SPARQL through Natural Language
- arxiv url: http://arxiv.org/abs/2505.19971v1
- Date: Mon, 26 May 2025 13:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.466213
- Title: Conversational Lexicography: Querying Lexicographic Data on Knowledge Graphs with SPARQL through Natural Language
- Title(参考訳): Conversational Lexicography:自然言語によるSPARQLによる知識グラフの語彙データ検索
- Authors: Kilian Sennrich, Sina Ahmadi,
- Abstract要約: 本稿では,Wikidata などの知識グラフ上での語彙データ検索のための自然言語インタフェース構築の課題に対処する。
Wikidataの辞書データオントロジーモジュールの複雑さを4次元で把握する多次元分類法を開発した。
GPT-2 (124M)、Phi-1.5 (1.3B)、GPT-3.5-Turboによる実験は、モデル能力に大きな違いを示した。
- 参考スコア(独自算出の注目度): 3.5297361401370044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge graphs offer an excellent solution for representing the lexical-semantic structures of lexicographic data. However, working with the SPARQL query language represents a considerable hurdle for many non-expert users who could benefit from the advantages of this technology. This paper addresses the challenge of creating natural language interfaces for lexicographic data retrieval on knowledge graphs such as Wikidata. We develop a multidimensional taxonomy capturing the complexity of Wikidata's lexicographic data ontology module through four dimensions and create a template-based dataset with over 1.2 million mappings from natural language utterances to SPARQL queries. Our experiments with GPT-2 (124M), Phi-1.5 (1.3B), and GPT-3.5-Turbo reveal significant differences in model capabilities. While all models perform well on familiar patterns, only GPT-3.5-Turbo demonstrates meaningful generalization capabilities, suggesting that model size and diverse pre-training are crucial for adaptability in this domain. However, significant challenges remain in achieving robust generalization, handling diverse linguistic data, and developing scalable solutions that can accommodate the full complexity of lexicographic knowledge representation.
- Abstract(参考訳): 知識グラフは、辞書データの語彙-意味構造を表現するのに優れたソリューションを提供する。
しかし、SPARQLクエリ言語で作業することは、この技術の利点を享受できる専門家でない多くのユーザにとって、かなりのハードルとなる。
本稿では,Wikidata などの知識グラフ上での語彙データ検索のための自然言語インタフェース構築の課題に対処する。
Wikidataの辞書データオントロジーモジュールの複雑さを4次元で捉えた多次元分類法を開発し、自然言語の発話からSPARQLクエリへの120万以上のマッピングを持つテンプレートベースのデータセットを作成する。
GPT-2 (124M), Phi-1.5 (1.3B), GPT-3.5-Turbo を用いた実験により, モデル機能に有意な差異が認められた。
すべてのモデルは親しみやすいパターンでよく機能するが、GPT-3.5-Turboだけが有意義な一般化能力を示し、モデルのサイズと多様な事前学習がこの領域の適応性にとって重要であることを示唆している。
しかし、ロバストな一般化を達成すること、多様な言語データを扱うこと、語彙的知識表現の完全な複雑さに対応するスケーラブルなソリューションを開発することは、依然として大きな課題である。
関連論文リスト
- Text2Cypher: Bridging Natural Language and Graph Databases [0.3774866290142281]
Text2Cypherは、自然言語クエリをCypherクエリ言語に変換することで、このギャップを埋めることを目指している。
公開されているいくつかのデータセットを合計44,387のインスタンスに組み合わせ、整理し、整理した方法について説明している。
論文 参考訳(メタデータ) (2024-12-13T11:50:51Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Knowledge in Triples for LLMs: Enhancing Table QA Accuracy with Semantic Extraction [1.0968343822308813]
本稿では,表型データから直交三重項を抽出し,それを検索拡張生成(RAG)モデルに統合することにより,微調整GPT-3.5-turbo-0125モデルにより生成された応答の精度,コヒーレンス,コンテキスト的リッチ性を向上させる手法を提案する。
FeTaQAデータセットの既存のベースライン、特にSacre-BLEUとROUGEの指標に優れています。
論文 参考訳(メタデータ) (2024-09-21T16:46:15Z) - GlossLM: A Massively Multilingual Corpus and Pretrained Model for Interlinear Glossed Text [39.846419973203744]
我々は、1.8k言語にまたがる450万以上のサンプルを網羅し、様々なソースからIGT(Interlinear glossed Text)データをコンパイルする。
私たちは、多くのデータを標準化して、言語間でのラベルの標準セットに従います。
多くの言語が十分な単言語データを持っていないため、私たちはコーパス上で大きな多言語モデルを事前訓練します。
モノリンガルコーパスを微調整し,SOTAモデルを最大6.6%向上させることにより,本モデルの有用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T03:21:15Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。