論文の概要: LOTUS: Enabling Semantic Queries with LLMs Over Tables of Unstructured and Structured Data
- arxiv url: http://arxiv.org/abs/2407.11418v1
- Date: Tue, 16 Jul 2024 06:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 16:22:29.749902
- Title: LOTUS: Enabling Semantic Queries with LLMs Over Tables of Unstructured and Structured Data
- Title(参考訳): LOTUS:非構造化および構造化データのテーブル上でのLLMによるセマンティッククエリの実現
- Authors: Liana Patel, Siddharth Jha, Carlos Guestrin, Matei Zaharia,
- Abstract要約: 構成可能なAIベースの操作でリレーショナルモデルを拡張するプログラミングインターフェースであるセマンティック演算子を導入する。
我々は,PandasライクなAPIを備えたオープンソースのクエリエンジンであるLOTUSで,演算子といくつかの最適化を実装した。
我々は,ファクトチェック,極端なマルチラベル分類,検索など,一連の実アプリケーションにおいてLOTUSの有効性を実証する。
- 参考スコア(独自算出の注目度): 30.8272804455309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The semantic capabilities of language models (LMs) have the potential to enable rich analytics and reasoning over vast knowledge corpora. Unfortunately, existing systems lack high-level abstractions to perform semantic queries at scale. We introduce semantic operators, a declarative programming interface that extends the relational model with composable AI-based operations for semantic queries over datasets (e.g., sorting or aggregating records using natural language criteria). Each operator can be implemented and optimized in multiple ways, opening a rich space for execution plans similar to relational operators. We implement our operators and several optimizations for them in LOTUS, an open-source query engine with a Pandas-like API. We demonstrate LOTUS' effectiveness across a series of real applications, including fact-checking, extreme multi-label classification, and search. We find that LOTUS' programming model is highly expressive, capturing state-of-the-art query pipelines with low development overhead. Specifically, on the FEVER dataset, LOTUS' programs can reproduce FacTool, a recent state-of-the-art fact-checking pipeline, in few lines of code, and implement a new pipeline that improves accuracy by $9.5\%$, while offering $7-34\times$ lower execution time. In the extreme multi-label classification task on the BioDEX dataset, LOTUS reproduces state-of-the art result quality with its join operator, while providing an efficient algorithm that runs $800\times$ faster than a naive join. In the search and ranking application, LOTUS allows a simple composition of operators to achieve $5.9 - 49.4\%$ higher nDCG@10 than the vanilla retriever and re-ranker, while also providing query efficiency, with $1.67 - 10\times$ lower execution time than LM-based ranking methods used by prior works. LOTUS is publicly available at https://github.com/stanford-futuredata/lotus.
- Abstract(参考訳): 言語モデル(LM)のセマンティック能力は、豊富な知識コーパスに対するリッチな分析と推論を可能にする可能性がある。
残念ながら、既存のシステムは、大規模にセマンティッククエリを実行するためのハイレベルな抽象化を欠いている。
我々は、データセット上のセマンティッククエリ(例えば、自然言語の基準を用いたレコードのソートや集約など)のための構成可能なAIベースの操作により、リレーショナルモデルを拡張する宣言型プログラミングインターフェースであるセマンティック演算子を紹介する。
各オペレータは、複数の方法で実装および最適化することができ、リレーショナル演算子に似た実行計画のための豊富なスペースを開放する。
我々は,PandasライクなAPIを備えたオープンソースのクエリエンジンであるLOTUSで,演算子といくつかの最適化を実装した。
我々は,ファクトチェック,極端なマルチラベル分類,検索など,一連の実アプリケーションにおいてLOTUSの有効性を実証する。
LOTUSのプログラミングモデルは非常に表現力が高く、開発オーバーヘッドの少ない最先端のクエリパイプラインをキャプチャする。
具体的には、FEVERデータセット上で、LOTUSのプログラムは、最近の最先端のファクトチェックパイプラインであるFacToolを数行のコードで再現でき、新しいパイプラインを実装して、9.5\%の精度を向上し、7~34\times$低い実行時間を提供する。
BioDEXデータセットの極端なマルチラベル分類タスクでは、LOTUSはジョイン演算子を使って、最先端のアート結果の品質を再現すると同時に、単純なジョインよりも800\times$高速な効率的なアルゴリズムを提供する。
検索とランキングアプリケーションでは、LOTUSはバニラレトリバーやリランカよりも5.9 - 49.4\%$高いnDCG@10を達成することができるが、クエリ効率は1.67 - 10\times$ LMベースのランキング手法よりも低い。
LOTUSはhttps://github.com/stanford-futuredata/lotus.comで公開されている。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - IQLS: Framework for leveraging Metadata to enable Large Language Model based queries to complex, versatile Data [0.20482269513546458]
Intelligent Query and Learning System (IQLS)は、自然言語を使ってデータ検索を単純化することで、プロセスを単純化する。
利用可能なメタデータと利用可能なデータモデルに基づいて、構造化されたデータをフレームワークにマッピングする。
IQLSは、インターフェイスを通じてユーザクエリによって与えられるタスクをエージェントが実行可能にする。
論文 参考訳(メタデータ) (2024-05-04T13:44:05Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Neural Methods for Logical Reasoning Over Knowledge Graphs [14.941769519278745]
知識グラフ(KGs)上でのマルチホップ論理的クエリの応答に焦点をあてる。
これまでのほとんどの作業では、FOL(First-Order Logical)クエリを完全に受け入れるモデルを作成することができなかった。
本稿では,ニューラルネットワークを用いて一点ベクトル埋め込みを生成し,問合せに答えるモデルを提案する。
論文 参考訳(メタデータ) (2022-09-28T23:10:09Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。