Fugu-MT 論文翻訳(概要): LOTUS: Enabling Semantic Queries with LLMs Over Tables of Unstructured and Structured Data

論文の概要: LOTUS: Enabling Semantic Queries with LLMs Over Tables of Unstructured and Structured Data

arxiv url: http://arxiv.org/abs/2407.11418v1
Date: Tue, 16 Jul 2024 06:19:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 16:22:29.749902
Title: LOTUS: Enabling Semantic Queries with LLMs Over Tables of Unstructured and Structured Data
Title（参考訳）: LOTUS:非構造化および構造化データのテーブル上でのLLMによるセマンティッククエリの実現
Authors: Liana Patel, Siddharth Jha, Carlos Guestrin, Matei Zaharia,
Abstract要約: 構成可能なAIベースの操作でリレーショナルモデルを拡張するプログラミングインターフェースであるセマンティック演算子を導入する。我々は,PandasライクなAPIを備えたオープンソースのクエリエンジンであるLOTUSで,演算子といくつかの最適化を実装した。我々は,ファクトチェック,極端なマルチラベル分類,検索など,一連の実アプリケーションにおいてLOTUSの有効性を実証する。
参考スコア（独自算出の注目度）: 30.8272804455309
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The semantic capabilities of language models (LMs) have the potential to enable rich analytics and reasoning over vast knowledge corpora. Unfortunately, existing systems lack high-level abstractions to perform semantic queries at scale. We introduce semantic operators, a declarative programming interface that extends the relational model with composable AI-based operations for semantic queries over datasets (e.g., sorting or aggregating records using natural language criteria). Each operator can be implemented and optimized in multiple ways, opening a rich space for execution plans similar to relational operators. We implement our operators and several optimizations for them in LOTUS, an open-source query engine with a Pandas-like API. We demonstrate LOTUS' effectiveness across a series of real applications, including fact-checking, extreme multi-label classification, and search. We find that LOTUS' programming model is highly expressive, capturing state-of-the-art query pipelines with low development overhead. Specifically, on the FEVER dataset, LOTUS' programs can reproduce FacTool, a recent state-of-the-art fact-checking pipeline, in few lines of code, and implement a new pipeline that improves accuracy by $9.5\%$, while offering $7-34\times$ lower execution time. In the extreme multi-label classification task on the BioDEX dataset, LOTUS reproduces state-of-the art result quality with its join operator, while providing an efficient algorithm that runs $800\times$ faster than a naive join. In the search and ranking application, LOTUS allows a simple composition of operators to achieve $5.9 - 49.4\%$ higher nDCG@10 than the vanilla retriever and re-ranker, while also providing query efficiency, with $1.67 - 10\times$ lower execution time than LM-based ranking methods used by prior works. LOTUS is publicly available at https://github.com/stanford-futuredata/lotus.
Abstract（参考訳）: 言語モデル(LM)のセマンティック能力は、豊富な知識コーパスに対するリッチな分析と推論を可能にする可能性がある。残念ながら、既存のシステムは、大規模にセマンティッククエリを実行するためのハイレベルな抽象化を欠いている。我々は、データセット上のセマンティッククエリ(例えば、自然言語の基準を用いたレコードのソートや集約など)のための構成可能なAIベースの操作により、リレーショナルモデルを拡張する宣言型プログラミングインターフェースであるセマンティック演算子を紹介する。各オペレータは、複数の方法で実装および最適化することができ、リレーショナル演算子に似た実行計画のための豊富なスペースを開放する。我々は,PandasライクなAPIを備えたオープンソースのクエリエンジンであるLOTUSで,演算子といくつかの最適化を実装した。我々は,ファクトチェック,極端なマルチラベル分類,検索など,一連の実アプリケーションにおいてLOTUSの有効性を実証する。 LOTUSのプログラミングモデルは非常に表現力が高く、開発オーバーヘッドの少ない最先端のクエリパイプラインをキャプチャする。具体的には、FEVERデータセット上で、LOTUSのプログラムは、最近の最先端のファクトチェックパイプラインであるFacToolを数行のコードで再現でき、新しいパイプラインを実装して、9.5\%の精度を向上し、7～34\times$低い実行時間を提供する。 BioDEXデータセットの極端なマルチラベル分類タスクでは、LOTUSはジョイン演算子を使って、最先端のアート結果の品質を再現すると同時に、単純なジョインよりも800\times$高速な効率的なアルゴリズムを提供する。検索とランキングアプリケーションでは、LOTUSはバニラレトリバーやリランカよりも5.9 - 49.4\%$高いnDCG@10を達成することができるが、クエリ効率は1.67 - 10\times$ LMベースのランキング手法よりも低い。 LOTUSはhttps://github.com/stanford-futuredata/lotus.comで公開されている。

関連論文リスト

Beyond Relational: Semantic-Aware Multi-Modal Analytics with LLM-Native Query Optimization [35.60979104539273]
Nirvanaは、プログラム可能なセマンティック演算子を組み込んだマルチモーダルデータ分析フレームワークである。 Nirvanaはエンドツーエンドのランタイムを10%から85%削減し、システム処理コストを平均で76%削減できる。
論文参考訳（メタデータ） (2025-11-25T01:41:49Z)
Toward a Trustworthy Optimization Modeling Agent via Verifiable Synthetic Data Generation [11.988926173584154]
本稿では,信頼性の高い大規模言語モデル(LLM)エージェントを合成データ生成パイプラインを介して訓練するためのフレームワークを提案する。 OptiTrustは、自然言語からソルバ対応コードへの多言語翻訳を行うモジュール型LLMエージェントである。我々のエージェントは、標準ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-05T05:54:20Z)
Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。 SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文参考訳（メタデータ） (2025-06-12T15:52:32Z)
Abacus: A Cost-Based Optimizer for Semantic Operator Systems [12.831601498212397]
本稿では,セマンティック演算子の最適実装を探索するコストベースシステムであるAbacusを紹介する。 Abacusは、最小限の検証例と、もし可能であれば、オペレータのパフォーマンスに関する事前の信念を活用することで、オペレータのパフォーマンスを見積もる。 Abacusによって最適化されたシステムは、19.2%-39.2%の優れた品質、23.6倍の低コスト、4.2倍のレイテンシを実現している。
論文参考訳（メタデータ） (2025-05-20T17:49:46Z)
Decision Tree Induction Through LLMs via Semantically-Aware Evolution [53.0367886783772]
遺伝的プログラミング(GP)に基づく決定木誘導のための進化的最適化手法を提案する。私たちの重要なイノベーションは、セマンティックな事前情報と、検索空間に関するドメイン固有の知識をアルゴリズムに統合することです。これは、構造化された自然言語プロンプトを扱う新しい遺伝子操作子によって操作される。
論文参考訳（メタデータ） (2025-03-18T12:52:03Z)
Language Models can Self-Improve at State-Value Estimation for Better Search [23.61729554517216]
我々は、状態遷移を明示的に推論することで、言語モデルに基づく値関数を改善する報奨のないフレームワークであるSelf-Taught Lookahead (STL)を紹介した。我々は,STLにより,オープンソースの小さなモデルで効率的な探索を導出し,推論コストを低減し,明示的な推論と価値学習を統合できることを見出した。
論文参考訳（メタデータ） (2025-03-04T18:58:11Z)
$\texttt{SEM-CTRL}$: Semantically Controlled Decoding [53.86639808659575]
$texttSEM-CTRL$は、LLMデコーダに直接、リッチなコンテキスト依存制約とタスクおよびインスタンス固有のセマンティクスを強制する統一的なアプローチである。 texttSEM-CTRL$は、小さな訓練済みのLLMがより大きな変種や最先端の推論モデルよりも効率的に性能を向上することを可能にする。
論文参考訳（メタデータ） (2025-03-03T18:33:46Z)
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [5.247363735860479]
大規模言語モデル(LLM)は、コードに関連するタスクにおいて顕著な機能を示した。 LLMが多様なプログラムを理解し処理する能力を考えると、汎用的なサロゲートモデルを構築する上で有望な方向性を示す。 SURGEは、1160ドル(約1万1000円)の価格問題で、8ドル(約8万3000円)の鍵となる側面をカバーしたベンチマークです。オープンソースおよびプロプライエタリ LLM の実証分析を通じて,スケーリング法則,データ効率,予測精度を検討した。
論文参考訳（メタデータ） (2025-02-16T15:38:19Z)
Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-03T20:41:38Z)
$f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [54.94545757220999]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文参考訳（メタデータ） (2024-10-29T02:11:45Z)
Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。 LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文参考訳（メタデータ） (2024-10-08T15:22:36Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
Efficient Budget Allocation for Large-Scale LLM-Enabled Virtual Screening [0.9558392439655016]
そこで我々は,LLM-as- human-evaluatorアプローチによるスクリーニングを事実上実施し,コスト負担を低減した。我々は,トップ$m$greedy評価機構を用いて,探索ファーストの上位$m$greedy (EFG-$m$) アルゴリズムを設計する。驚いたことに、我々はボーナスランキング効果を発見し、アルゴリズムは選択されたサブセット内で、自然に無関心なランキングを誘導する。
論文参考訳（メタデータ） (2024-08-18T16:44:41Z)
UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文参考訳（メタデータ） (2024-06-23T06:58:55Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
IQLS: Framework for leveraging Metadata to enable Large Language Model based queries to complex, versatile Data [0.20482269513546458]
Intelligent Query and Learning System (IQLS)は、自然言語を使ってデータ検索を単純化することで、プロセスを単純化する。利用可能なメタデータと利用可能なデータモデルに基づいて、構造化されたデータをフレームワークにマッピングする。 IQLSは、インターフェイスを通じてユーザクエリによって与えられるタスクをエージェントが実行可能にする。
論文参考訳（メタデータ） (2024-05-04T13:44:05Z)
Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers [66.823588073584]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。 NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-02T02:01:16Z)
FIND: A Function Description Benchmark for Evaluating Interpretability Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。 FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文参考訳（メタデータ） (2023-09-07T17:47:26Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文参考訳（メタデータ） (2023-04-19T06:00:26Z)
Neural Methods for Logical Reasoning Over Knowledge Graphs [14.941769519278745]
知識グラフ(KGs)上でのマルチホップ論理的クエリの応答に焦点をあてる。これまでのほとんどの作業では、FOL(First-Order Logical)クエリを完全に受け入れるモデルを作成することができなかった。本稿では,ニューラルネットワークを用いて一点ベクトル埋め込みを生成し,問合せに答えるモデルを提案する。
論文参考訳（メタデータ） (2022-09-28T23:10:09Z)
On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文参考訳（メタデータ） (2021-12-14T18:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。