論文の概要: Semantic Operators: A Declarative Model for Rich, AI-based Data Processing
- arxiv url: http://arxiv.org/abs/2407.11418v3
- Date: Sat, 01 Mar 2025 01:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:11:46.201174
- Title: Semantic Operators: A Declarative Model for Rich, AI-based Data Processing
- Title(参考訳): Semantic Operators: リッチでAIベースのデータ処理のための宣言モデル
- Authors: Liana Patel, Siddharth Jha, Melissa Pan, Harshit Gupta, Parth Asawa, Carlos Guestrin, Matei Zaharia,
- Abstract要約: 我々は、宣言型および汎用AIベースの変換のための最初の定式化である意味演算子を紹介する。
セマンティックフィルタリング,ジョイン,グループバイ,トップk操作を最大1000ドルまで高速化する新しい最適化を提案する。
セマンティック・オペレーター・モデルは表現力があり、いくつかのオペレーター・コールで最先端のAIパイプラインをキャプチャする。
- 参考スコア(独自算出の注目度): 27.294714926492187
- License:
- Abstract: The semantic capabilities of large language models (LLMs) have the potential to enable rich analytics and reasoning over vast knowledge corpora. Unfortunately, existing systems either empirically optimize expensive LLM-powered operations with no performance guarantees, or serve a limited set of row-wise LLM operations, providing limited robustness, expressiveness and usability. We introduce semantic operators, the first formalism for declarative and general-purpose AI-based transformations based on natural language specifications (e.g., filtering, sorting, joining or aggregating records using natural language criteria). Each operator opens a rich space for execution plans, similar to relational operators. Our model specifies the expected behavior of each operator with a high-quality gold algorithm, and we develop an optimization framework that reduces cost, while providing accuracy guarantees with respect to a gold algorithm. Using this approach, we propose several novel optimizations to accelerate semantic filtering, joining, group-by and top-k operations by up to $1,000\times$. We implement semantic operators in the LOTUS system and demonstrate LOTUS' effectiveness on real, bulk-semantic processing applications, including fact-checking, biomedical multi-label classification, search, and topic analysis. We show that the semantic operator model is expressive, capturing state-of-the-art AI pipelines in a few operator calls, and making it easy to express new pipelines that match or exceed quality of recent LLM-based analytic systems by up to $170\%$, while offering accuracy guarantees. Overall, LOTUS programs match or exceed the accuracy of state-of-the-art AI pipelines for each task while running up to $3.6\times$ faster than the highest-quality baselines. LOTUS is publicly available at https://github.com/lotus-data/lotus.
- Abstract(参考訳): 大規模言語モデル(LLM)のセマンティック能力は、豊富な知識コーパスに対するリッチな分析と推論を可能にする可能性がある。
残念ながら、既存のシステムは、性能保証のない高価なLLM操作を実証的に最適化するか、行単位でのLLM操作を限定的に提供し、堅牢性、表現性、ユーザビリティを制限している。
自然言語の仕様(例えば、フィルタリング、ソート、ジョイン、アグリゲーションなど)に基づいて、宣言的および汎用的なAIベースの変換のための最初の定式化であるセマンティック演算子を導入する。
各オペレータは、リレーショナル演算子と同様、実行計画のための豊富なスペースをオープンする。
本モデルでは,各演算子の期待する振る舞いを高品質な金のアルゴリズムで定義し,金のアルゴリズムに関して精度保証を提供しながら,コストを削減できる最適化フレームワークを開発する。
提案手法は,セマンティックフィルタリング,ジョイン,グループバイ,トップk操作を最大1000\times$で高速化する新しい最適化手法を提案する。
我々はLOTUSシステムにセマンティック演算子を実装し、事実チェック、バイオメディカルなマルチラベル分類、検索、トピック分析など、実世界におけるLOTUSの有効性を実証する。
セマンティック・オペレーター・モデルは表現力があり、数回のオペレーターコールで最先端のAIパイプラインをキャプチャし、最新のLCMベースの分析システムの品質を最大170セント以上で表現し、精度保証を提供する。
全体として、LOTUSプログラムは各タスクの最先端AIパイプラインの精度と一致し、最高品質のベースラインよりも3.6\times$で実行することができる。
LOTUSはhttps://github.com/lotus-data/lotus.comで公開されている。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - IQLS: Framework for leveraging Metadata to enable Large Language Model based queries to complex, versatile Data [0.20482269513546458]
Intelligent Query and Learning System (IQLS)は、自然言語を使ってデータ検索を単純化することで、プロセスを単純化する。
利用可能なメタデータと利用可能なデータモデルに基づいて、構造化されたデータをフレームワークにマッピングする。
IQLSは、インターフェイスを通じてユーザクエリによって与えられるタスクをエージェントが実行可能にする。
論文 参考訳(メタデータ) (2024-05-04T13:44:05Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Neural Methods for Logical Reasoning Over Knowledge Graphs [14.941769519278745]
知識グラフ(KGs)上でのマルチホップ論理的クエリの応答に焦点をあてる。
これまでのほとんどの作業では、FOL(First-Order Logical)クエリを完全に受け入れるモデルを作成することができなかった。
本稿では,ニューラルネットワークを用いて一点ベクトル埋め込みを生成し,問合せに答えるモデルを提案する。
論文 参考訳(メタデータ) (2022-09-28T23:10:09Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。