論文の概要: Database Reasoning Over Text
- arxiv url: http://arxiv.org/abs/2106.01074v1
- Date: Wed, 2 Jun 2021 11:09:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:43:57.709657
- Title: Database Reasoning Over Text
- Title(参考訳): テキストによるデータベース推論
- Authors: James Thorne, Majid Yazdani, Marzieh Saeidi, Fabrizio Silvestri,
Sebastian Riedel, Alon Halevy
- Abstract要約: 我々は、最先端のトランスフォーマーモデルが、小さなデータベースに対して非常によく機能していることを示します。
テキストから複数のスパンにまたがるデータベーススタイルのクエリに応答するモジュールアーキテクチャを提案する。
私たちのアーキテクチャは何千もの事実を含むデータベースにスケールしますが、現代のモデルは、何つの事実をエンコードできるかによって制限されています。
- 参考スコア(独自算出の注目度): 11.074939080454412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural models have shown impressive performance gains in answering queries
from natural language text. However, existing works are unable to support
database queries, such as "List/Count all female athletes who were born in 20th
century", which require reasoning over sets of relevant facts with operations
such as join, filtering and aggregation. We show that while state-of-the-art
transformer models perform very well for small databases, they exhibit
limitations in processing noisy data, numerical operations, and queries that
aggregate facts. We propose a modular architecture to answer these
database-style queries over multiple spans from text and aggregating these at
scale. We evaluate the architecture using WikiNLDB, a novel dataset for
exploring such queries. Our architecture scales to databases containing
thousands of facts whereas contemporary models are limited by how many facts
can be encoded. In direct comparison on small databases, our approach increases
overall answer accuracy from 85% to 90%. On larger databases, our approach
retains its accuracy whereas transformer baselines could not encode the
context.
- Abstract(参考訳): ニューラルモデルでは、自然言語テキストからのクエリに対する応答のパフォーマンスが印象的な向上を見せている。
しかし、既存の作品では「20世紀に誕生したすべての女性アスリートのリスト」のようなデータベースクエリをサポートできないため、結合、フィルタリング、集約といった操作に関連する一連の事実を推論する必要がある。
現状の変圧器モデルは, 小型データベースではよく機能するが, ノイズの多いデータ処理, 数値演算, 事実を集約するクエリに制限があることを示す。
テキストから複数のスパンにまたがるデータベーススタイルのクエリに応答し,大規模に集約するモジュールアーキテクチャを提案する。
このようなクエリを探索する新しいデータセットであるWikiNLDBを用いてアーキテクチャを評価する。
私たちのアーキテクチャは数千の事実を含むデータベースにスケールしますが、現代のモデルはどれだけの事実をエンコードできるかによって制限されています。
小さなデータベースを直接比較すると,回答全体の精度は85%から90%に向上する。
大規模データベースでは,この手法は精度を保ちながら,トランスフォーマーベースラインはコンテキストを符号化できなかった。
関連論文リスト
- Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。
Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。
Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文 参考訳(メタデータ) (2024-11-12T12:52:17Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - Multimodal Neural Databases [4.321727213494619]
マルチモーダルニューラルネットワーク(MMNDB)と呼ばれる新しいフレームワークを提案する。
MMNDBは、テキストや画像など、さまざまな入力モダリティを大規模に推論する、複雑なデータベースのようなクエリに答えることができる。
これらの新しい手法が、異なるモダリティから得られる非構造化データを処理する可能性を示し、将来の研究への道を開く。
論文 参考訳(メタデータ) (2023-05-02T14:27:56Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - SPARQLing Database Queries from Intermediate Question Decompositions [7.475027071883912]
自然言語の質問をデータベースクエリに変換するために、ほとんどのアプローチは、完全に注釈付けされたトレーニングセットに依存している。
データベースの中間問題表現を基盤として,この負担を軽減する。
我々のパイプラインは、自然言語質問を中間表現に変換するセマンティックと、訓練不能なトランスパイラをQLSPARクエリ言語に変換する2つの部分から構成される。
論文 参考訳(メタデータ) (2021-09-13T17:57:12Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers [26.15889661083109]
実Webデータベースのクロスドメイン評価データセットであるKDBaggleQAを提案する。
我々は、KDBaggleQAが最先端のゼロショットに挑戦していることを示しているが、より現実的な評価設定と関連するデータベースドキュメントの創造的利用により、その正確性は13.2%以上向上している。
論文 参考訳(メタデータ) (2021-06-22T00:08:03Z) - Translating synthetic natural language to database queries: a polyglot
deep learning framework [0.0]
Polyglotterは自然言語検索とデータベースクエリのマッピングをサポートする。
トレーニングのために手動で注釈付きデータを作成する必要はない。
我々のフレームワークは, 合成データベースと実データベースの両方で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-04-14T17:43:51Z) - Neural Databases [23.273308740532254]
本稿では,事前定義されたスキーマを持たないデータベースシステムについて述べる。
我々は、NeuralDBとそのコンポーネントの精度を実験的に検証し、非常に高い精度で何千もの文に対する問合せに答えられることを示す。
論文 参考訳(メタデータ) (2020-10-14T11:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。