論文の概要: Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data
- arxiv url: http://arxiv.org/abs/2407.11418v2
- Date: Mon, 18 Nov 2024 08:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:46.591480
- Title: Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data
- Title(参考訳): Semantic Operators: テキストデータに対するリッチでAIベースの分析のための宣言モデル
- Authors: Liana Patel, Siddharth Jha, Parth Asawa, Melissa Pan, Carlos Guestrin, Matei Zaharia,
- Abstract要約: 構成可能なAIベースの操作でリレーショナルモデルを拡張するプログラミングインターフェースであるセマンティック演算子を導入する。
データフレームAPIを備えたオープンソースのクエリエンジンであるLOTUSで演算子を実装します。
LOTUSクエリはタスク毎の最先端のAIパイプラインの精度と一致し、最大28$times$高速に動作していることを示す。
- 参考スコア(独自算出の注目度): 27.1174851752817
- License:
- Abstract: The semantic capabilities of language models (LMs) have the potential to enable rich analytics and reasoning over vast knowledge corpora. Unfortunately, existing systems lack high-level abstractions to perform bulk semantic queries across large corpora. We introduce semantic operators, a declarative programming interface that extends the relational model with composable AI-based operations for bulk semantic queries (e.g., filtering, sorting, joining or aggregating records using natural language criteria). Each operator can be implemented and optimized in multiple ways, opening a rich space for execution plans similar to relational operators. We implement our operators in LOTUS, an open source query engine with a DataFrame API. Furthermore, we develop several novel optimizations that take advantage of the declarative nature of semantic operators to accelerate semantic filtering, clustering and join operators by up to $400\times$ while offering statistical accuracy guarantees. We demonstrate LOTUS' effectiveness on real AI applications including fact-checking, extreme multi-label classification, and search. We show that the semantic operator model is expressive, capturing state-of-the-art AI pipelines in a few operator calls, and making it easy to express new pipelines that achieve up to $180\%$ higher quality. Overall, LOTUS queries match or exceed the accuracy of state-of-the-art AI pipelines for each task while running up to 28$\times$ faster. LOTUS is publicly available at https://github.com/stanford-futuredata/lotus.
- Abstract(参考訳): 言語モデル(LM)のセマンティック能力は、豊富な知識コーパスに対する豊富な分析と推論を可能にする可能性がある。
残念ながら、既存のシステムは大きなコーパスにわたってバルクセマンティッククエリを実行するための高レベルの抽象化を欠いている。
我々は、バルクセマンティッククエリ(例えば、フィルタリング、ソート、ジョイン、アグリゲーション)のための構成可能なAIベースの操作でリレーショナルモデルを拡張する宣言型プログラミングインターフェースであるセマンティック演算子を紹介した。
各オペレータは、複数の方法で実装および最適化することができ、リレーショナル演算子に似た実行計画のための豊富なスペースを開放する。
データフレームAPIを備えたオープンソースのクエリエンジンであるLOTUSで演算子を実装します。
さらに,セマンティックフィルタ,クラスタリング,結合演算子を,統計的精度を確保しつつ最大400\times$で高速化するために,セマンティック演算子の宣言的性質を利用する新しい最適化手法を開発した。
ファクトチェック、極端なマルチラベル分類、検索を含む実際のAIアプリケーションにおけるLOTUSの有効性を実証する。
セマンティック・オペレーターモデルは表現力があり、数回のオペレーターコールで最先端のAIパイプラインをキャプチャし、最大180\%の高品質を実現する新しいパイプラインを簡単に表現できることを示す。
全体として、LOTUSクエリはタスク毎に最先端のAIパイプラインの精度と一致し、最大28$\times$高速に実行される。
LOTUSはhttps://github.com/stanford-futuredata/lotus.comで公開されている。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - IQLS: Framework for leveraging Metadata to enable Large Language Model based queries to complex, versatile Data [0.20482269513546458]
Intelligent Query and Learning System (IQLS)は、自然言語を使ってデータ検索を単純化することで、プロセスを単純化する。
利用可能なメタデータと利用可能なデータモデルに基づいて、構造化されたデータをフレームワークにマッピングする。
IQLSは、インターフェイスを通じてユーザクエリによって与えられるタスクをエージェントが実行可能にする。
論文 参考訳(メタデータ) (2024-05-04T13:44:05Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Neural Methods for Logical Reasoning Over Knowledge Graphs [14.941769519278745]
知識グラフ(KGs)上でのマルチホップ論理的クエリの応答に焦点をあてる。
これまでのほとんどの作業では、FOL(First-Order Logical)クエリを完全に受け入れるモデルを作成することができなかった。
本稿では,ニューラルネットワークを用いて一点ベクトル埋め込みを生成し,問合せに答えるモデルを提案する。
論文 参考訳(メタデータ) (2022-09-28T23:10:09Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。