論文の概要: Text2SQL is Not Enough: Unifying AI and Databases with TAG
- arxiv url: http://arxiv.org/abs/2408.14717v1
- Date: Tue, 27 Aug 2024 00:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 15:24:16.410039
- Title: Text2SQL is Not Enough: Unifying AI and Databases with TAG
- Title(参考訳): Text2SQLは十分ではない:AIとデータベースをTAGで統一する
- Authors: Asim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia,
- Abstract要約: Table-Augmented Generation (TAG) は、データベース上の自然言語の質問に答えるパラダイムである。
我々は、TAG問題を研究するためのベンチマークを開発し、標準手法がクエリの20%以上を正しく答えることを発見した。
- 参考スコア(独自算出の注目度): 47.45480855418987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems that serve natural language questions over databases promise to unlock tremendous value. Such systems would allow users to leverage the powerful reasoning and knowledge capabilities of language models (LMs) alongside the scalable computational power of data management systems. These combined capabilities would empower users to ask arbitrary natural language questions over custom data sources. However, existing methods and benchmarks insufficiently explore this setting. Text2SQL methods focus solely on natural language questions that can be expressed in relational algebra, representing a small subset of the questions real users wish to ask. Likewise, Retrieval-Augmented Generation (RAG) considers the limited subset of queries that can be answered with point lookups to one or a few data records within the database. We propose Table-Augmented Generation (TAG), a unified and general-purpose paradigm for answering natural language questions over databases. The TAG model represents a wide range of interactions between the LM and database that have been previously unexplored and creates exciting research opportunities for leveraging the world knowledge and reasoning capabilities of LMs over data. We systematically develop benchmarks to study the TAG problem and find that standard methods answer no more than 20% of queries correctly, confirming the need for further research in this area. We release code for the benchmark at https://github.com/TAG-Research/TAG-Bench.
- Abstract(参考訳): 自然言語による質問をデータベース上で処理するAIシステムは、膨大な価値を解放することを約束する。
このようなシステムにより、ユーザは、データ管理システムのスケーラブルな計算能力と並行して、言語モデル(LM)の強力な推論と知識能力を利用することができる。
これらの組み合わせにより、ユーザーはカスタムデータソースに対して任意の自然言語質問をすることができる。
しかし、既存の手法やベンチマークでは、この設定を十分に探索できない。
Text2SQLメソッドは、リレーショナル代数で表現できる自然言語の質問にのみフォーカスする。
同様に、Retrieval-Augmented Generation (RAG)は、データベース内の1つまたは数個のデータレコードへのポイントルックアップで答えられるクエリの限られたサブセットについて検討している。
本稿では,データベース上の自然言語質問に答える統一的で汎用的なパラダイムであるTable-Augmented Generation (TAG)を提案する。
TAGモデルは、これまで探索されていなかったLMとデータベース間の幅広い相互作用を表しており、データよりも世界知識とLMの推論能力を活用するためのエキサイティングな研究機会を生み出している。
我々は,TAG問題を研究するためのベンチマークを体系的に開発し,標準手法がクエリの20%以上を正しく答えることを確認し,この分野におけるさらなる研究の必要性を確認する。
ベンチマークのコードはhttps://github.com/TAG-Research/TAG-Bench.orgで公開しています。
関連論文リスト
- SM3-Text-to-Query: Synthetic Multi-Model Medical Text-to-Query Benchmark [4.049028351548513]
異なるデータベースモデルは、クエリの複雑さとパフォーマンスに大きな影響を与えます。
SM3-Text-to-Queryは,最初のマルチモデル医療用テキスト-to-Queryベンチマークである。
論文 参考訳(メタデータ) (2024-11-08T12:27:13Z) - MoMQ: Mixture-of-Experts Enhances Multi-Dialect Query Generation across Relational and Non-Relational Databases [15.59894560371822]
クラウドサービスプロバイダは、複数の方言をサポートする統合データベースマネージャサービスを探している。
MoMQは、Mixture-of-Expertsベースの新しいマルチダイアレクトクエリ生成フレームワークである。
MoMQでは、それぞれの方言の専門家グループと、方言固有の知識を扱うための多レベルルーティング戦略を採用している。
論文 参考訳(メタデータ) (2024-10-24T03:42:43Z) - A System and Benchmark for LLM-based Q&A on Heterogeneous Data [17.73258512415368]
データベースとAPIの両方へのシームレスな自然言語アクセスを可能にするsiwarexプラットフォームを導入しました。
修正されたスパイダーベンチマークは、近く研究コミュニティに公開される予定です。
論文 参考訳(メタデータ) (2024-09-09T15:44:39Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Querying Large Language Models with SQL [16.383179496709737]
多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。
事前訓練されたLarge Language Models (LLMs) の台頭に伴い、大量のテキストコーパスから抽出された情報を保存および使用するための効果的なソリューションが現在存在する。
本稿では,従来のデータベースアーキテクチャに基づくプロトタイプであるGaloisについて紹介する。
論文 参考訳(メタデータ) (2023-04-02T06:58:14Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z) - Data Agnostic RoBERTa-based Natural Language to SQL Query Generation [0.0]
NL2タスクは、自然言語による質問から有効なクエリへの変換問題を解決するために、ディープラーニングアプローチを見つけることを目的としている。
データプライバシに関するアプローチを,その中核として紹介しています。
成果は得られていないが、モデルのトレーニングからテーブルの必要性を排除した。
論文 参考訳(メタデータ) (2020-10-11T13:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。