Fugu-MT 論文翻訳(概要): Implementing Semantic Join Operators Efficiently

論文の概要: Implementing Semantic Join Operators Efficiently

arxiv url: http://arxiv.org/abs/2510.08489v1
Date: Thu, 09 Oct 2025 17:30:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-10 17:54:15.245939
Title: Implementing Semantic Join Operators Efficiently
Title（参考訳）: 意味結合演算子を効率的に実装する
Authors: Immanuel Trummer,
Abstract要約: 本稿では,意味結合を評価するための新しいアルゴリズムを提案する。提案アルゴリズムは,各入力テーブルからの行のバッチを1つのプロンプトに統合する。提案アルゴリズムの適応的変種は、出力の大きさを推定することが困難である場合を指す。
参考スコア（独自算出の注目度）: 28.123361615101444
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic query processing engines often support semantic joins, enabling users to match rows that satisfy conditions specified in natural language. Such join conditions can be evaluated using large language models (LLMs) that solve novel tasks without task-specific training. Currently, many semantic query processing engines implement semantic joins via nested loops, invoking the LLM to evaluate the join condition on row pairs. Instead, this paper proposes a novel algorithm, inspired by the block nested loops join operator implementation in traditional database systems. The proposed algorithm integrates batches of rows from both input tables into a single prompt. The goal of the LLM invocation is to identify all matching row pairs in the current input. The paper introduces formulas that can be used to optimize the size of the row batches, taking into account constraints on the size of the LLM context window (limiting both input and output size). An adaptive variant of the proposed algorithm refers to cases in which the size of the output is difficult to estimate. A formal analysis of asymptotic processing costs, as well as empirical results, demonstrates that the proposed approach reduces costs significantly and performs well compared to join implementations used by recent semantic query processing engines.
Abstract（参考訳）: セマンティッククエリ処理エンジンは、しばしばセマンティック結合をサポートし、自然言語で指定された条件を満たす行にマッチすることができる。このような結合条件は、タスク固有のトレーニングなしで新しいタスクを解く大きな言語モデル(LLM)を用いて評価することができる。現在、多くのセマンティッククエリ処理エンジンはネストループを介してセマンティック結合を実装しており、行ペアのジョイン条件を評価するためにLLMを呼び出している。そこで本研究では,従来のデータベースシステムにおけるブロックネストループ結合演算子の実装にヒントを得た,新しいアルゴリズムを提案する。提案アルゴリズムは,各入力テーブルからの行のバッチを1つのプロンプトに統合する。 LLM呼び出しの目標は、現在の入力における全ての一致した行ペアを識別することである。本稿では,LLMコンテキストウィンドウのサイズに制約(入力サイズと出力サイズの両方の制限)を考慮し,行バッチのサイズを最適化する公式を提案する。提案アルゴリズムの適応的変種は、出力の大きさを推定することが困難である場合を指す。漸近処理コストと経験的結果の形式的分析により,提案手法は近年のセマンティッククエリ処理エンジンで使用される実装と比べ,コストを大幅に削減し,性能よく動作することを示した。

関連論文リスト

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm [17.52767415071768]
Clustering-Sampling-Voting(CSV)は、エラー保証を提供しながら、呼び出しをサブ線形の複雑さに還元するフレームワークである。 CSVはセマンティッククラスタをセマンティッククラスタに組み込み、評価のために小さなサブセットをサンプリングし、2つの投票戦略を通じてクラスタレベルのラベルを推論する。
論文参考訳（メタデータ） (2026-03-05T04:37:15Z)
OrLog: Resolving Complex Queries with LLMs and Probabilistic Reasoning [51.58235452818926]
そこで我々は,論理的推論から述語レベルの妥当性推定を分離するニューロシンボリック検索フレームワークOrLogを紹介する。大規模言語モデル (LLM) は1つの復号のない前方通過において原子述語に対する可視性スコアを提供し、確率論的推論エンジンはクエリ満足度の後方確率を導出する。
論文参考訳（メタデータ） (2026-01-30T15:31:58Z)
Hint-Augmented Re-ranking: Efficient Product Search using LLM-Based Query Decomposition [20.966359103135762]
LLMは,eコマースクエリにおいて最下位の意図を明らかにすることができることを示す。提案手法では,クエリを検索と同時に生成した属性値ヒントに分解する。本手法はMAPにおける検索効率を10.9ポイント改善し,ベースライン上のMRRにおいて5.9ポイントのランク付けを行う。
論文参考訳（メタデータ） (2025-11-17T23:53:25Z)
Efficient Context Selection for Long-Context QA: No Tuning, No Iteration, Just Adaptive-$k$ [13.173467492641485]
本稿では、クエリと候補パスの類似度スコアに基づいて、経路数を適応的に選択する、単純で効果的なシングルパス手法であるAdaptive-$k$を提案する。モデルファインチューニング、余分なLCM推論、あるいは既存のレトリバー読み取りパイプラインの変更は不要である。 5つのLCLMと2つの埋め込みモデルで精度を向上し、動的にコンテキストサイズを調整することでより効率的で正確なQAが得られることを強調した。
論文参考訳（メタデータ） (2025-06-10T06:11:01Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
TETRIS: Optimal Draft Token Selection for Batch Speculative Decoding [76.23719557942917]
TETRISは、(バッチ内のすべてのリクエストに対して)最も有望なドラフトトークンを積極的に選択する。我々は,TETRISがベースライン投機的復号法およびドラフトトークンを動的に選択する既存手法より優れていることを理論的かつ実証的に示す。
論文参考訳（メタデータ） (2025-02-21T04:19:24Z)
LLM-assisted Vector Similarity Search [0.0]
本稿では,ベクトル類似性探索とLarge Language Models(LLMs)を組み合わせたハイブリッド手法を提案する。構造化データセットの実験では、ベクトル類似性検索は単純なクエリに対してのみうまく機能するが、LLM支援アプローチは制約、否定、概念的な要求を含む複雑なクエリを処理するのに優れている。
論文参考訳（メタデータ） (2024-12-25T08:17:37Z)
BATON: Enhancing Batch-wise Inference Efficiency for Large Language Models via Dynamic Re-batching [4.610983384440473]
本稿では,処理バッチを動的に調整し,効率的なバッチ単位のLLM推論手法であるBATONを提案する。最先端のソリューションであるOrcaと比較して、BATONはクエリ処理を最大1.75倍改善する。
論文参考訳（メタデータ） (2024-10-24T12:53:39Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
JoinGym: An Efficient Query Optimization Environment for Reinforcement Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。 JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文参考訳（メタデータ） (2023-07-21T17:00:06Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
DeepJoin: Joinable Table Discovery with Pre-trained Language Models [10.639106014582756]
既存のアプローチは、統一されたビューを作成するためのテーブルを組み合わせる最も一般的な方法である、等結合をターゲットにしている。 Deepjoinは、正確で効率的な結合可能なテーブルディスカバリのためのディープラーニングモデルである。 Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。
論文参考訳（メタデータ） (2022-12-15T02:40:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。