論文の概要: Synthesizing Document Database Queries using Collection Abstractions
- arxiv url: http://arxiv.org/abs/2412.06102v1
- Date: Sun, 08 Dec 2024 23:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:38.243076
- Title: Synthesizing Document Database Queries using Collection Abstractions
- Title(参考訳): コレクション抽象化を用いたドキュメントデータベースクエリの合成
- Authors: Qikang Liu, Yang He, Yanwen Cai, Byeongguk Kwak, Yuepeng Wang,
- Abstract要約: 本稿では,入力出力例から文書データベースクエリを自動的に生成する合成手法を提案する。
新しいドメイン固有言語は、代数的なスタイルで文書データベースクエリの代表セットを表現するように設計されている。
様々な情報源から110ベンチマークの評価結果から,提案手法が108ベンチマークをうまく合成できることが示唆された。
- 参考スコア(独自算出の注目度): 2.447381858158398
- License:
- Abstract: Document databases are increasingly popular in various applications, but their queries are challenging to write due to the flexible and complex data model underlying document databases. This paper presents a synthesis technique that aims to generate document database queries from input-output examples automatically. A new domain-specific language is designed to express a representative set of document database queries in an algebraic style. Furthermore, the synthesis technique leverages a novel abstraction of collections for deduction to efficiently prune the search space and quickly generate the target query. An evaluation of 110 benchmarks from various sources shows that the proposed technique can synthesize 108 benchmarks successfully. On average, the synthesizer can generate document database queries from a small number of input-output examples within tens of seconds.
- Abstract(参考訳): ドキュメントデータベースは、様々なアプリケーションでますます人気があるが、そのクエリは、ドキュメントデータベースの基盤となる柔軟で複雑なデータモデルのために書くのが難しい。
本稿では,入力出力例から文書データベースクエリを自動的に生成する合成手法を提案する。
新しいドメイン固有言語は、代数的なスタイルで文書データベースクエリの代表セットを表現するように設計されている。
さらに、この合成技術は、推論のためのコレクションの新たな抽象化を活用して、探索空間を効率的にプーンし、ターゲットクエリを迅速に生成する。
様々な情報源から110ベンチマークの評価結果から,提案手法が108ベンチマークをうまく合成できることが示唆された。
平均して、シンセサイザーは、少数の入出力例から数十秒以内に文書データベースクエリを生成することができる。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion [39.24969189479343]
本稿では,大規模言語モデル(LLM)を相互検証に用いるゼロショットクエリ拡張フレームワークを提案する。
提案手法は完全にゼロショットであり,その有効性を示すために3つの公開ベンチマークデータセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z) - QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications [20.507631900617817]
提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-27T07:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。