論文の概要: Implementing Semantic Join Operators Efficiently
- arxiv url: http://arxiv.org/abs/2510.08489v1
- Date: Thu, 09 Oct 2025 17:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.245939
- Title: Implementing Semantic Join Operators Efficiently
- Title(参考訳): 意味結合演算子を効率的に実装する
- Authors: Immanuel Trummer,
- Abstract要約: 本稿では,意味結合を評価するための新しいアルゴリズムを提案する。
提案アルゴリズムは,各入力テーブルからの行のバッチを1つのプロンプトに統合する。
提案アルゴリズムの適応的変種は、出力の大きさを推定することが困難である場合を指す。
- 参考スコア(独自算出の注目度): 28.123361615101444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic query processing engines often support semantic joins, enabling users to match rows that satisfy conditions specified in natural language. Such join conditions can be evaluated using large language models (LLMs) that solve novel tasks without task-specific training. Currently, many semantic query processing engines implement semantic joins via nested loops, invoking the LLM to evaluate the join condition on row pairs. Instead, this paper proposes a novel algorithm, inspired by the block nested loops join operator implementation in traditional database systems. The proposed algorithm integrates batches of rows from both input tables into a single prompt. The goal of the LLM invocation is to identify all matching row pairs in the current input. The paper introduces formulas that can be used to optimize the size of the row batches, taking into account constraints on the size of the LLM context window (limiting both input and output size). An adaptive variant of the proposed algorithm refers to cases in which the size of the output is difficult to estimate. A formal analysis of asymptotic processing costs, as well as empirical results, demonstrates that the proposed approach reduces costs significantly and performs well compared to join implementations used by recent semantic query processing engines.
- Abstract(参考訳): セマンティッククエリ処理エンジンは、しばしばセマンティック結合をサポートし、自然言語で指定された条件を満たす行にマッチすることができる。
このような結合条件は、タスク固有のトレーニングなしで新しいタスクを解く大きな言語モデル(LLM)を用いて評価することができる。
現在、多くのセマンティッククエリ処理エンジンはネストループを介してセマンティック結合を実装しており、行ペアのジョイン条件を評価するためにLLMを呼び出している。
そこで本研究では,従来のデータベースシステムにおけるブロックネストループ結合演算子の実装にヒントを得た,新しいアルゴリズムを提案する。
提案アルゴリズムは,各入力テーブルからの行のバッチを1つのプロンプトに統合する。
LLM呼び出しの目標は、現在の入力における全ての一致した行ペアを識別することである。
本稿では,LLMコンテキストウィンドウのサイズに制約(入力サイズと出力サイズの両方の制限)を考慮し,行バッチのサイズを最適化する公式を提案する。
提案アルゴリズムの適応的変種は、出力の大きさを推定することが困難である場合を指す。
漸近処理コストと経験的結果の形式的分析により,提案手法は近年のセマンティッククエリ処理エンジンで使用される実装と比べ,コストを大幅に削減し,性能よく動作することを示した。
関連論文リスト
- Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - TETRIS: Optimal Draft Token Selection for Batch Speculative Decoding [76.23719557942917]
TETRISは、(バッチ内のすべてのリクエストに対して)最も有望なドラフトトークンを積極的に選択する。
我々は,TETRISがベースライン投機的復号法およびドラフトトークンを動的に選択する既存手法より優れていることを理論的かつ実証的に示す。
論文 参考訳(メタデータ) (2025-02-21T04:19:24Z) - LLM-assisted Vector Similarity Search [0.0]
本稿では,ベクトル類似性探索とLarge Language Models(LLMs)を組み合わせたハイブリッド手法を提案する。
構造化データセットの実験では、ベクトル類似性検索は単純なクエリに対してのみうまく機能するが、LLM支援アプローチは制約、否定、概念的な要求を含む複雑なクエリを処理するのに優れている。
論文 参考訳(メタデータ) (2024-12-25T08:17:37Z) - BATON: Enhancing Batch-wise Inference Efficiency for Large Language Models via Dynamic Re-batching [4.610983384440473]
本稿では,処理バッチを動的に調整し,効率的なバッチ単位のLLM推論手法であるBATONを提案する。
最先端のソリューションであるOrcaと比較して、BATONはクエリ処理を最大1.75倍改善する。
論文 参考訳(メタデータ) (2024-10-24T12:53:39Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - DeepJoin: Joinable Table Discovery with Pre-trained Language Models [10.639106014582756]
既存のアプローチは、統一されたビューを作成するためのテーブルを組み合わせる最も一般的な方法である、等結合をターゲットにしている。
Deepjoinは、正確で効率的な結合可能なテーブルディスカバリのためのディープラーニングモデルである。
Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。
論文 参考訳(メタデータ) (2022-12-15T02:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。