論文の概要: SemBench: A Benchmark for Semantic Query Processing Engines
- arxiv url: http://arxiv.org/abs/2511.01716v1
- Date: Mon, 03 Nov 2025 16:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.324273
- Title: SemBench: A Benchmark for Semantic Query Processing Engines
- Title(参考訳): SemBench: セマンティッククエリ処理エンジンのベンチマーク
- Authors: Jiale Lao, Andreas Zimmerer, Olga Ovcharenko, Tianji Cong, Matthew Russo, Gerardo Vitagliano, Michael Cochez, Fatma Özcan, Gautam Gupta, Thibaud Hottelier, H. V. Jagadish, Kris Kissel, Sebastian Schelter, Andreas Kipf, Immanuel Trummer,
- Abstract要約: 本稿では,セマンティッククエリ処理エンジンという,新しい種類のシステムを対象としたベンチマークを提案する。
私たちのベンチマークでは、シナリオ、モダリティ、演算子という3つの重要な次元に多様性を導入しています。
我々は,3つの学術システム(LOTUS,Palimpzest,ThalamusDB)と1つの産業システムであるGoogle BigQueryについてベンチマークを行った。
- 参考スコア(独自算出の注目度): 32.37997040464244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a benchmark targeting a novel class of systems: semantic query processing engines. Those systems rely inherently on generative and reasoning capabilities of state-of-the-art large language models (LLMs). They extend SQL with semantic operators, configured by natural language instructions, that are evaluated via LLMs and enable users to perform various operations on multimodal data. Our benchmark introduces diversity across three key dimensions: scenarios, modalities, and operators. Included are scenarios ranging from movie review analysis to medical question-answering. Within these scenarios, we cover different data modalities, including images, audio, and text. Finally, the queries involve a diverse set of operators, including semantic filters, joins, mappings, ranking, and classification operators. We evaluated our benchmark on three academic systems (LOTUS, Palimpzest, and ThalamusDB) and one industrial system, Google BigQuery. Although these results reflect a snapshot of systems under continuous development, our study offers crucial insights into their current strengths and weaknesses, illuminating promising directions for future research.
- Abstract(参考訳): 本稿では,セマンティッククエリ処理エンジンという,新しい種類のシステムを対象としたベンチマークを提案する。
これらのシステムは基本的に、最先端の大規模言語モデル(LLM)の生成能力と推論能力に依存している。
自然言語命令によって構成されるセマンティック演算子でSQLを拡張し、LLMを通じて評価され、ユーザはマルチモーダルデータ上でさまざまな操作を実行できる。
私たちのベンチマークでは、シナリオ、モダリティ、演算子という3つの重要な次元に多様性を導入しています。
映画レビュー分析から医療質問応答まで、様々なシナリオがある。
これらのシナリオでは、画像、オーディオ、テキストなど、さまざまなデータモダリティをカバーしています。
最後に、クエリにはセマンティックフィルタ、ジョイン、マッピング、ランキング、分類演算子など、さまざまな演算子が含まれている。
我々は,3つの学術システム(LOTUS,Palimpzest,ThalamusDB)と1つの産業システムであるGoogle BigQueryについてベンチマークを行った。
これらの結果は、継続的開発中のシステムのスナップショットを反映していますが、我々の研究は、現在の強みと弱みについて重要な洞察を与え、将来の研究への有望な方向性を示します。
関連論文リスト
- Large Language Model Prompt Datasets: An In-depth Analysis and Insights [17.386420251846953]
プロンプトは、大きな言語モデル(LLM)の特定のタスクを定義する自然言語命令である。
この作業では、初めて、さまざまなチャネルからソースされたプロンプトデータセットの広範なリストをコンパイルしました。
論文 参考訳(メタデータ) (2025-10-10T12:15:55Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - Explainable Multi-Modal Data Exploration in Natural Language via LLM Agent [6.147666891384964]
XMODEは自然言語で説明可能なマルチモーダルデータ探索を可能にするシステムである。
XMODEは、マルチモーダル情報システムの探索を可能にする現実世界のユースケースにインスパイアされている。
論文 参考訳(メタデータ) (2024-12-24T13:42:44Z) - Evaluating and Enhancing LLMs for Multi-turn Text-to-SQL with Multiple Question Types [11.391598870596392]
大規模言語モデル (LLM) は、かなり高度な音声合成システムを備えている。
LLMは、しばしばSQL生成に焦点を合わせ、現実世界の会話クエリの複雑さを無視している。
LLMの問合せ分類とSQL生成能力を評価するためのテストスイートMMを提案する。
論文 参考訳(メタデータ) (2024-12-21T10:13:45Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning [10.731045939849125]
本稿では,テキストからセマンティックへの解析に注目する。
商用データベースのスキーマのサイズとビジネスインテリジェンスソリューションのデプロイ可能性に関する課題から,入力データベース情報を動的に取得する $textASTReS$ を提案する。
論文 参考訳(メタデータ) (2024-07-03T15:55:14Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。