論文の概要: From Text to CQL: Bridging Natural Language and Corpus Search Engine
- arxiv url: http://arxiv.org/abs/2402.13740v1
- Date: Wed, 21 Feb 2024 12:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 15:29:02.707468
- Title: From Text to CQL: Bridging Natural Language and Corpus Search Engine
- Title(参考訳): TextからCQLへ - 自然言語とコーパス検索エンジンのブリッジ
- Authors: Luming Lu, Jiyuan An, Yujie Wang, Liner yang, Cunliang Kong, Zhenghao
Liu, Shuo Wang, Haozhe Lin, Mingwei Fang, Yaping Huang and Erhong Yang
- Abstract要約: コーパスクエリ言語(Corpus Query Language, CQL)は、テキストコーパス内の言語研究と詳細な分析のための重要なツールである。
本稿では,自然言語のCQLへの翻訳を自動化することを目的とした,最初のテキストからCQLへのタスクを提案する。
- 参考スコア(独自算出の注目度): 27.56738323943742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Processing (NLP) technologies have revolutionized the way we
interact with information systems, with a significant focus on converting
natural language queries into formal query languages such as SQL. However, less
emphasis has been placed on the Corpus Query Language (CQL), a critical tool
for linguistic research and detailed analysis within text corpora. The manual
construction of CQL queries is a complex and time-intensive task that requires
a great deal of expertise, which presents a notable challenge for both
researchers and practitioners. This paper presents the first text-to-CQL task
that aims to automate the translation of natural language into CQL. We present
a comprehensive framework for this task, including a specifically curated
large-scale dataset and methodologies leveraging large language models (LLMs)
for effective text-to-CQL task. In addition, we established advanced evaluation
metrics to assess the syntactic and semantic accuracy of the generated queries.
We created innovative LLM-based conversion approaches and detailed experiments.
The results demonstrate the efficacy of our methods and provide insights into
the complexities of text-to-CQL task.
- Abstract(参考訳): 自然言語処理(NLP)技術は、自然言語クエリをSQLのような形式的なクエリ言語に変換することに重点を置いて、情報システムとのインタラクション方法に革命をもたらした。
しかし、コーパスクエリ言語(CQL)は、言語研究とテキストコーパス内の詳細な分析のための重要なツールである。
CQLクエリのマニュアル構築は複雑で時間を要する作業であり、多くの専門知識を必要とする。
本稿では,自然言語のCQLへの翻訳を自動化することを目的とした,最初のテキスト間CQLタスクを提案する。
本稿では,大規模なデータセットと,大規模言語モデル(LLM)を有効テキスト・トゥ・CQLタスクに活用する方法論を含む,このタスクのための包括的なフレームワークを提案する。
さらに,生成したクエリの構文的および意味的精度を評価するために,高度な評価指標を構築した。
革新的なLCM変換手法と詳細な実験を行った。
提案手法の有効性を実証し,テキスト間CQLタスクの複雑さに関する知見を提供する。
関連論文リスト
- SEMQA: Semi-Extractive Multi-Source Question Answering [98.76021956492697]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - An In-Context Schema Understanding Method for Knowledge Base Question
Answering [70.87993081445127]
大きな言語モデル(LLM)は、言語理解において強力な能力を示しており、この課題を解決するために使用することができる。
既存のメソッドは、当初、スキーマ固有の詳細を使わずにLLMを使用してロジックフォームのドラフトを生成することで、この課題を回避している。
そこで本研究では,LLMが文脈内学習を利用してスキーマを直接理解できる簡易なインコンテキスト理解(ICSU)手法を提案する。
論文 参考訳(メタデータ) (2023-10-22T04:19:17Z) - Text-to-OverpassQL: A Natural Language Interface for Complex Geodata
Querying of OpenStreetMap [17.01783992725517]
OpenStreetMap (OSM)からジオデータをクエリするための自然言語インタフェースを容易にするタスクであるText-to-OverpassQLを提案する。
自然言語入力からOverpassクエリを生成することは、複数のユースケースに役立つ。
論文 参考訳(メタデータ) (2023-08-30T14:33:25Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - SPBERT: Pre-training BERT on SPARQL Queries for End-to-end Question
Answering over Knowledge Graphs [1.1775939485654976]
SPBERTは、大規模なSPARQLクエリログを事前トレーニングしたTransformerベースの言語モデルである。
本研究では,SPBERTとエンコーダデコーパスアーキテクチャを知識ベースQAコーパスに適用する方法について検討する。
論文 参考訳(メタデータ) (2021-06-18T08:39:26Z) - BigCQ: A large-scale synthetic dataset of competency question patterns
formalized into SPARQL-OWL query templates [0.06445605125467574]
BigCQは、SPARQL-OWLクエリテンプレートへのフォーマル化を備えた、CQテンプレートの最大のデータセットである。
データセットを詳細に記述し、データセットの作成に繋がるプロセスの説明と、データセットが実際の例をどのようにカバーしているかを分析する。
論文 参考訳(メタデータ) (2021-05-20T07:59:59Z) - ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries [10.273545005890496]
データ拡張技術とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。
ColloQLは、Wikilogicalデータセット上で84.9%(実行)と90.7%(実行)の精度を達成する。
論文 参考訳(メタデータ) (2020-10-19T23:53:17Z) - EQL -- an extremely easy to learn knowledge graph query language,
achieving highspeed and precise search [8.199756399104198]
非常に単純なクエリ言語は、知識グラフ、正確な検索、強力な人工知能、データベース、スマートスピーカー、パテント検索などの分野で広く利用することができる。
EQLは設計において最小主義の原則を採用し、シンプルで簡単に学習し、誰もが素早く習得できるようにしている。
EQL言語と世界の常識を備えた包括的な知識グラフシステムは、将来的には強力なAIの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-03-19T03:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。