論文の概要: 100x Cost & Latency Reduction: Performance Analysis of AI Query Approximation using Lightweight Proxy Models
- arxiv url: http://arxiv.org/abs/2603.15970v1
- Date: Mon, 16 Mar 2026 22:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.021639
- Title: 100x Cost & Latency Reduction: Performance Analysis of AI Query Approximation using Lightweight Proxy Models
- Title(参考訳): 100倍コストとレイテンシ低減:軽量プロキシモデルを用いたAIクエリ近似の性能解析
- Authors: Yeounoh Chung, Rushabh Desai, Jian He, Yu Xiao, Thibaud Hottelier, Yves-Laurent Kom Samo, Pushkar Kadilkar, Xianshun Chen, Sam Idicula, Fatma Özcan, Alon Halevy, Yannis Papakonstantinou,
- Abstract要約: 我々は、低コストな分析とデータベースアプリケーションがAIクエリの恩恵を受けることができるAIクエリ近似手法を提案する。
このアプローチは、セマンティックフィルタ(AI.IF)演算子に対して、100倍のコストとレイテンシ低減と、セマンティックランキング(AI.RANK)の重要なゲインを提供する。
レイテンシとコストの大幅な増加にもかかわらず、これらのプロキシモデルは精度を保ち、さまざまなベンチマークデータセットの精度を時折向上させる。
- 参考スコア(独自算出の注目度): 6.985494432089493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several data warehouse and database providers have recently introduced extensions to SQL called AI Queries, enabling users to specify functions and conditions in SQL that are evaluated by LLMs, thereby broadening significantly the kinds of queries one can express over the combination of structured and unstructured data. LLMs offer remarkable semantic reasoning capabilities, making them an essential tool for complex and nuanced queries that blend structured and unstructured data. While extremely powerful, these AI queries can become prohibitively costly when invoked thousands of times. This paper provides an extensive evaluation of a recent AI query approximation approach that enables low cost analytics and database applications to benefit from AI queries. The approach delivers >100x cost and latency reduction for the semantic filter (AI.IF) operator and also important gains for semantic ranking (AI.RANK). The cost and performance gains come from utilizing cheap and accurate proxy models over embedding vectors. We show that despite the massive gains in latency and cost, these proxy models preserve accuracy and occasionally improve accuracy across various benchmark datasets, including the extended Amazon reviews benchmark that has 10M rows. We present an OLAP-friendly architecture within Google \textit{BigQuery} for this approach for purely online (ad hoc) queries, and a low-latency HTAP database-friendly architecture in \textit{AlloyDB} that could further improve the latency by moving the proxy model training offline. We present techniques that accelerate the proxy model training.
- Abstract(参考訳): 最近、いくつかのデータウェアハウスとデータベースプロバイダが、AI Queriesと呼ばれるSQLの拡張を導入し、LLMによって評価されるSQLの関数と条件を指定できるようにし、構造化データと非構造化データの組み合わせによって表現できるクエリの種類を大幅に拡大した。
LLMは驚くべきセマンティック推論機能を提供しており、構造化データと非構造化データを混在させる複雑でニュアンスなクエリに欠かせないツールである。
非常に強力だが、何千回も呼び出されると、これらのAIクエリは違法にコストがかかる可能性がある。
本稿では、低コストな分析とデータベースアプリケーションがAIクエリの恩恵を受けられるように、最近のAIクエリ近似手法を広範囲に評価する。
このアプローチは、セマンティックフィルタ(AI.IF)演算子に対する100倍のコストとレイテンシの低減と、セマンティックランキング(AI.RANK)の重要な利益を提供する。
コストとパフォーマンスの向上は、埋め込みベクタよりも安価で正確なプロキシモデルを利用することによって実現される。
レイテンシとコストの大幅な増加にもかかわらず、これらのプロキシモデルは精度を保ち、時には1000万行のAmazonレビューベンチマークを含む、さまざまなベンチマークデータセットの精度を向上します。
我々は、Google \textit{BigQuery}内のOLAPフレンドリなアーキテクチャを、純粋にオンライン(アドホック)クエリのためのこのアプローチに適用し、低レイテンシのHTAPデータベースフレンドリなアーキテクチャを \textit{AlloyDB}で提示し、プロキシモデルのトレーニングをオフラインにすることで、レイテンシをさらに改善する。
プロキシモデルのトレーニングを加速するテクニックを提案する。
関連論文リスト
- FinAI Data Assistant: LLM-based Financial Database Query Processing with the OpenAI Function Calling API [1.1985612872852671]
FinAI Data Assistantは、金融データベース上の自然言語クエリの実践的なアプローチである。
システムは、ユーザリクエストを、検証済みのパラメータ化されたクエリの小さなライブラリにルーティングする。
結果:NASDAQ-100はティッカーマッピングの精度がほぼ完璧であり、S&P500企業にとっては高い。
論文 参考訳(メタデータ) (2025-10-15T23:19:27Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - ERATTA: Extreme RAG for Table To Answers with Large Language Models [1.3318204310917532]
検索拡張現実(RAG)を備えた大規模言語モデル(LLM)は、スケーラブルな生成AIソリューションに最適な選択肢である。
本研究では,データ認証,ユーザクエリルーティング,データ検索,エンタープライズデータテーブルからの質問応答機能へのカスタムプロンプトを実現するために,複数のLLMを起動可能なLLMベースのユニークなシステムを提案する。
提案するシステムと評価基準は,持続可能性,財務状況,ソーシャルメディア領域において,数百のユーザクエリに対して,90%以上の信頼性スコアを達成している。
論文 参考訳(メタデータ) (2024-05-07T02:49:59Z) - Approximating Aggregated SQL Queries With LSTM Networks [31.528524004435933]
本稿では、近似クエリ処理(AQP)とも呼ばれるクエリ近似法を提案する。
我々は、LSTMネットワークを用いて、クエリと結果の関係を学習し、クエリ結果を予測するための高速な推論層を提供する。
提案手法では,1秒間に最大12万のクエリを予測でき,クエリのレイテンシは2ms以下であった。
論文 参考訳(メタデータ) (2020-10-25T16:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。