論文の概要: Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data
- arxiv url: http://arxiv.org/abs/2407.11418v2
- Date: Mon, 18 Nov 2024 08:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:46.591480
- Title: Semantic Operators: A Declarative Model for Rich, AI-based Analytics Over Text Data
- Title(参考訳): Semantic Operators: テキストデータに対するリッチでAIベースの分析のための宣言モデル
- Authors: Liana Patel, Siddharth Jha, Parth Asawa, Melissa Pan, Carlos Guestrin, Matei Zaharia,
- Abstract要約: 構成可能なAIベースの操作でリレーショナルモデルを拡張するプログラミングインターフェースであるセマンティック演算子を導入する。
データフレームAPIを備えたオープンソースのクエリエンジンであるLOTUSで演算子を実装します。
LOTUSクエリはタスク毎の最先端のAIパイプラインの精度と一致し、最大28$times$高速に動作していることを示す。
- 参考スコア(独自算出の注目度): 27.1174851752817
- License:
- Abstract: The semantic capabilities of language models (LMs) have the potential to enable rich analytics and reasoning over vast knowledge corpora. Unfortunately, existing systems lack high-level abstractions to perform bulk semantic queries across large corpora. We introduce semantic operators, a declarative programming interface that extends the relational model with composable AI-based operations for bulk semantic queries (e.g., filtering, sorting, joining or aggregating records using natural language criteria). Each operator can be implemented and optimized in multiple ways, opening a rich space for execution plans similar to relational operators. We implement our operators in LOTUS, an open source query engine with a DataFrame API. Furthermore, we develop several novel optimizations that take advantage of the declarative nature of semantic operators to accelerate semantic filtering, clustering and join operators by up to $400\times$ while offering statistical accuracy guarantees. We demonstrate LOTUS' effectiveness on real AI applications including fact-checking, extreme multi-label classification, and search. We show that the semantic operator model is expressive, capturing state-of-the-art AI pipelines in a few operator calls, and making it easy to express new pipelines that achieve up to $180\%$ higher quality. Overall, LOTUS queries match or exceed the accuracy of state-of-the-art AI pipelines for each task while running up to 28$\times$ faster. LOTUS is publicly available at https://github.com/stanford-futuredata/lotus.
- Abstract(参考訳): 言語モデル(LM)のセマンティック能力は、豊富な知識コーパスに対する豊富な分析と推論を可能にする可能性がある。
残念ながら、既存のシステムは大きなコーパスにわたってバルクセマンティッククエリを実行するための高レベルの抽象化を欠いている。
我々は、バルクセマンティッククエリ(例えば、フィルタリング、ソート、ジョイン、アグリゲーション)のための構成可能なAIベースの操作でリレーショナルモデルを拡張する宣言型プログラミングインターフェースであるセマンティック演算子を紹介した。
各オペレータは、複数の方法で実装および最適化することができ、リレーショナル演算子に似た実行計画のための豊富なスペースを開放する。
データフレームAPIを備えたオープンソースのクエリエンジンであるLOTUSで演算子を実装します。
さらに,セマンティックフィルタ,クラスタリング,結合演算子を,統計的精度を確保しつつ最大400\times$で高速化するために,セマンティック演算子の宣言的性質を利用する新しい最適化手法を開発した。
ファクトチェック、極端なマルチラベル分類、検索を含む実際のAIアプリケーションにおけるLOTUSの有効性を実証する。
セマンティック・オペレーターモデルは表現力があり、数回のオペレーターコールで最先端のAIパイプラインをキャプチャし、最大180\%の高品質を実現する新しいパイプラインを簡単に表現できることを示す。
全体として、LOTUSクエリはタスク毎に最先端のAIパイプラインの精度と一致し、最大28$\times$高速に実行される。
LOTUSはhttps://github.com/stanford-futuredata/lotus.comで公開されている。
関連論文リスト
- Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Neural Methods for Logical Reasoning Over Knowledge Graphs [14.941769519278745]
知識グラフ(KGs)上でのマルチホップ論理的クエリの応答に焦点をあてる。
これまでのほとんどの作業では、FOL(First-Order Logical)クエリを完全に受け入れるモデルを作成することができなかった。
本稿では,ニューラルネットワークを用いて一点ベクトル埋め込みを生成し,問合せに答えるモデルを提案する。
論文 参考訳(メタデータ) (2022-09-28T23:10:09Z) - How to Query An Oracle? Efficient Strategies to Label Data [59.89900843097016]
機械学習におけるデータセットのラベル付けに専門家の託宣を照会する際の基本的な問題について考察する。
本稿では,サンプルをラベル付けするために,ラウンド・バイ・ラウンドでランダム化されたバッチアルゴリズムを提案し,クエリレートが$O(fracNk2)$であることを示す。
さらに,適応型グリージークエリ方式を提案し,三重項クエリを用いたサンプルあたり平均$approx 0.2N$クエリを実現する。
論文 参考訳(メタデータ) (2021-10-05T20:15:35Z) - A No-Free-Lunch Theorem for MultiTask Learning [19.645741778058227]
すべてのタスク$P_t$が共通の最適分類器$h*,$を共有する、一見好都合な分類シナリオを考える。
このようなレジームは、$n$と$N$の両方のミニマックスレートを許容するが、適応アルゴリズムは存在しない。
論文 参考訳(メタデータ) (2020-06-29T03:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。