論文の概要: Enhancing SPARQL Generation by Triplet-order-sensitive Pre-training
- arxiv url: http://arxiv.org/abs/2410.05731v1
- Date: Tue, 08 Oct 2024 06:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 13:33:13.681945
- Title: Enhancing SPARQL Generation by Triplet-order-sensitive Pre-training
- Title(参考訳): Triplet-order-sensitive Pre-trainingによるSPARQL生成の高速化
- Authors: Chang Su, Jiexing Qi, He Yan, Kai Zou, Zhouhan Lin,
- Abstract要約: 新しい目的であるTriplet Order Correction(TOC)と、一般的に使われているMasked Language Modeling(MLM)を組み合わせた事前学習ステージを提案する。
提案手法は,広範に使用されている3つのベンチマークに対して,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 13.57710774520144
- License:
- Abstract: Semantic parsing that translates natural language queries to SPARQL is of great importance for Knowledge Graph Question Answering (KGQA) systems. Although pre-trained language models like T5 have achieved significant success in the Text-to-SPARQL task, their generated outputs still exhibit notable errors specific to the SPARQL language, such as triplet flips. To address this challenge and further improve the performance, we propose an additional pre-training stage with a new objective, Triplet Order Correction (TOC), along with the commonly used Masked Language Modeling (MLM), to collectively enhance the model's sensitivity to triplet order and SPARQL syntax. Our method achieves state-of-the-art performances on three widely-used benchmarks.
- Abstract(参考訳): 自然言語クエリをSPARQLに変換する意味解析は、知識グラフ質問回答(KGQA)システムにおいて非常に重要である。
T5のような事前訓練された言語モデルはText-to-SPARQLタスクで大きな成功を収めているが、生成された出力はトリプルトフリップなど、SPARQL言語特有の顕著なエラーを示している。
この課題に対処し、さらに性能を向上させるために、新しい目的であるトリプルト順序補正(TOC)と一般的なマスケッド言語モデリング(MLM)を併用した事前学習ステージを提案し、モデルのトリプルト順序に対する感度とSPARQL構文を総合的に強化する。
提案手法は,広範に使用されている3つのベンチマークに対して,最先端の性能を実現する。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Assessing SPARQL capabilities of Large Language Models [0.0]
我々は、SPARQLで動作するLarge Language Modelsのアウトオブザボックス機能の測定に重点を置いています。
LLM-KG-Benchフレームワークにベンチマークタスクを実装し,自動実行と評価を行う。
この結果から,SPARQL SELECTクエリの処理はLLMでは依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2024-09-09T08:29:39Z) - A Comprehensive Evaluation of Neural SPARQL Query Generation from
Natural Language Questions [2.5782420501870296]
近年、SPARQLクエリ生成のためのニューラルネットワーク翻訳(NMT)の分野が著しく成長している。
本稿では,最近のNMTに基づくSPARQL生成研究を再現し,拡張する様々な実験について述べる。
論文 参考訳(メタデータ) (2023-04-16T13:12:26Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - AutoQGS: Auto-Prompt for Low-Resource Knowledge-based Question
Generation from SPARQL [18.019353543946913]
本研究では,知識に基づく質問生成(KBQG)の課題について検討する。
従来のKBQGは知識グラフのファクトトリプルから質問を生成するが、これはSPARQLの集約や比較のような複雑な操作を表現できない。
本研究では,SPARQLをNL記述に書き換えるために,大規模教師なしデータに基づいて訓練された自動プロンプタを提案する。
論文 参考訳(メタデータ) (2022-08-26T06:53:46Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Modern Baselines for SPARQL Semantic Parsing [28.088516108293653]
我々は、自然言語の質問からSPARQLクエリを生成するタスクに焦点を当て、知識グラフ上で実行できる。
T5 は特別な入力トークン化を必要とするが,LC-QuAD 1.0 および LC-QuAD 2.0 データセット上でのアートパフォーマンスの状態を生成する。
この方法では、入力の一部を出力クエリにコピーする必要がある問題に対するセマンティック解析が可能となり、KGセマンティック解析における新しいパラダイムが実現される。
論文 参考訳(メタデータ) (2022-04-27T09:26:59Z) - SPBERT: Pre-training BERT on SPARQL Queries for End-to-end Question
Answering over Knowledge Graphs [1.1775939485654976]
SPBERTは、大規模なSPARQLクエリログを事前トレーニングしたTransformerベースの言語モデルである。
本研究では,SPBERTとエンコーダデコーパスアーキテクチャを知識ベースQAコーパスに適用する方法について検討する。
論文 参考訳(メタデータ) (2021-06-18T08:39:26Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Explicitly Modeling Syntax in Language Models with Incremental Parsing
and a Dynamic Oracle [88.65264818967489]
我々は新しい構文認識型言語モデル、Syntactic Ordered Memory (SOM)を提案する。
モデルは、構造をインクリメンタルにモデル化し、標準言語モデルの条件付き確率設定を維持する。
実験により、SOMは言語モデリング、インクリメンタル解析、構文一般化テストにおいて強力な結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-21T17:39:15Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。