論文の概要: SUQL: Conversational Search over Structured and Unstructured Data with
Large Language Models
- arxiv url: http://arxiv.org/abs/2311.09818v2
- Date: Wed, 13 Mar 2024 17:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:58:21.685275
- Title: SUQL: Conversational Search over Structured and Unstructured Data with
Large Language Models
- Title(参考訳): SUQL: 構造化データと非構造化データに関する会話型検索
大規模言語モデル
- Authors: Shicheng Liu, Jialiang Xu, Wesley Tjangnaka, Sina J. Semnani, Chen Jie
Yu, Monica S. Lam
- Abstract要約: 本稿では、SUQLと呼ばれる言語を用いて、大規模知識コーパスのためのハイブリッドデータアクセスの完全な汎用性をサポートする最初の対話エージェントを提案する。
線形化に基づくベースラインの63.4%とは対照的に,SUQLに基づく会話エージェントでは,すべてのユーザの要求を満たすエンティティが90.3%であることがわかった。
- 参考スコア(独自算出の注目度): 7.347262319994813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While most conversational agents are grounded on either free-text or
structured knowledge, many knowledge corpora consist of hybrid sources. This
paper presents the first conversational agent that supports the full generality
of hybrid data access for large knowledge corpora, through a language we
developed called SUQL (Structured and Unstructured Query Language).
Specifically, SUQL extends SQL with free-text primitives (summary and answer),
so information retrieval can be composed with structured data accesses
arbitrarily in a formal, succinct, precise, and interpretable notation. With
SUQL, we propose the first semantic parser, an LLM with in-context learning,
that can handle hybrid data sources.
Our in-context learning-based approach, when applied to the HybridQA dataset,
comes within 8.9% exact match and 7.1% F1 of the SOTA, which was trained on 62K
data samples. More significantly, unlike previous approaches, our technique is
applicable to large databases and free-text corpora. We introduce a dataset
consisting of crowdsourced questions and conversations on Yelp, a large, real
restaurant knowledge base with structured and unstructured data. We show that
our few-shot conversational agent based on SUQL finds an entity satisfying all
user requirements 90.3% of the time, compared to 63.4% for a baseline based on
linearization.
- Abstract(参考訳): ほとんどの会話エージェントは自由テキストまたは構造化知識に基づいているが、多くの知識コーパスはハイブリッドソースで構成されている。
本稿では,SUQL(Structured and Unstructured Query Language)と呼ばれる言語を用いて,大規模知識コーパスに対するハイブリッドデータアクセスの完全汎用性をサポートする対話型エージェントを提案する。
具体的には、SUQLはSQLをフリーテキストプリミティブ(要約と回答)で拡張するので、情報検索は形式的、簡潔で、正確で、解釈可能な表記法で任意に構造化されたデータアクセスで構成することができる。
SUQLでは,ハイブリッドデータソースを処理可能な,コンテキスト内学習型LLMの最初のセマンティックパーサを提案する。
私たちのコンテキスト内学習ベースのアプローチは、HybridQAデータセットに適用すると、62Kデータサンプルに基づいてトレーニングされたSOTAの8.9%の正確な一致と7.1%のF1の範囲内になります。
さらに,従来の手法とは異なり,我々の手法は大規模データベースや自由テキストコーパスに適用可能である。
我々は、構造化された非構造化データを備えた、大規模でリアルなレストラン知識ベースであるYelpで、クラウドソーシングされた質問と会話からなるデータセットを紹介します。
線形化に基づくベースラインの63.4%とは対照的に,SUQLに基づく会話エージェントでは,すべてのユーザの要求を満たすエンティティが90.3%であることがわかった。
関連論文リスト
- DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Text-to-OverpassQL: A Natural Language Interface for Complex Geodata
Querying of OpenStreetMap [17.01783992725517]
OpenStreetMap (OSM)からジオデータをクエリするための自然言語インタフェースを容易にするタスクであるText-to-OverpassQLを提案する。
自然言語入力からOverpassクエリを生成することは、複数のユースケースに役立つ。
論文 参考訳(メタデータ) (2023-08-30T14:33:25Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - BigText-QA: Question Answering over a Large-Scale Hybrid Knowledge Graph [23.739432128095107]
BigText-QAは構造化知識グラフに基づいて質問に答えることができる。
その結果,BigText-QAはニューラルネットワークベースのQAシステムであるDrQAよりも優れており,グラフベースの教師なしQAシステムであるQUESTと競合する結果が得られた。
論文 参考訳(メタデータ) (2022-12-12T09:49:02Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - SPARQLing Database Queries from Intermediate Question Decompositions [7.475027071883912]
自然言語の質問をデータベースクエリに変換するために、ほとんどのアプローチは、完全に注釈付けされたトレーニングセットに依存している。
データベースの中間問題表現を基盤として,この負担を軽減する。
我々のパイプラインは、自然言語質問を中間表現に変換するセマンティックと、訓練不能なトランスパイラをQLSPARクエリ言語に変換する2つの部分から構成される。
論文 参考訳(メタデータ) (2021-09-13T17:57:12Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries [10.273545005890496]
データ拡張技術とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。
ColloQLは、Wikilogicalデータセット上で84.9%(実行)と90.7%(実行)の精度を達成する。
論文 参考訳(メタデータ) (2020-10-19T23:53:17Z) - Conversations with Search Engines: SERP-based Conversational Response
Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。
また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。
CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文 参考訳(メタデータ) (2020-04-29T13:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。