論文の概要: Beyond Quacking: Deep Integration of Language Models and RAG into DuckDB
- arxiv url: http://arxiv.org/abs/2504.01157v1
- Date: Tue, 01 Apr 2025 19:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:17:38.504907
- Title: Beyond Quacking: Deep Integration of Language Models and RAG into DuckDB
- Title(参考訳): Beyond Quacking: DuckDBへの言語モデルとRAGの深い統合
- Authors: Anas Dorbani, Sunny Yasser, Jimmy Lin, Amine Mhedhbi,
- Abstract要約: 大規模言語モデル(LLM)により、このような検索と推論データパイプラインのプロトタイプがより簡単になった。
これはしばしば、データシステムのオーケストレーション、データムーブメントの管理、低レベルの詳細処理を含む。
我々はFlockMTLを紹介した。FlockMTLはLLM機能と検索拡張生成を深く統合した抽象化用拡張である。
- 参考スコア(独自算出の注目度): 44.057784044659726
- License:
- Abstract: Knowledge-intensive analytical applications retrieve context from both structured tabular data and unstructured, text-free documents for effective decision-making. Large language models (LLMs) have made it significantly easier to prototype such retrieval and reasoning data pipelines. However, implementing these pipelines efficiently still demands significant effort and has several challenges. This often involves orchestrating heterogeneous data systems, managing data movement, and handling low-level implementation details, e.g., LLM context management. To address these challenges, we introduce FlockMTL: an extension for DBMSs that deeply integrates LLM capabilities and retrieval-augmented generation (RAG). FlockMTL includes model-driven scalar and aggregate functions, enabling chained predictions through tuple-level mappings and reductions. Drawing inspiration from the relational model, FlockMTL incorporates: (i) cost-based optimizations, which seamlessly apply techniques such as batching and caching; and (ii) resource independence, enabled through novel SQL DDL abstractions: PROMPT and MODEL, introduced as first-class schema objects alongside TABLE. FlockMTL streamlines the development of knowledge-intensive analytical applications, and its optimizations ease the implementation burden.
- Abstract(参考訳): 知識集約型分析アプリケーションは、効率的な意思決定のために構造化表データと構造化されていない文書の両方からコンテキストを検索する。
大規模言語モデル(LLM)は、そのような検索と推論データパイプラインのプロトタイプを著しく容易にする。
しかし、これらのパイプラインを効率的に実装するには依然としてかなりの努力が必要であり、いくつかの課題がある。
これは、不均一なデータシステムのオーケストレーション、データ移動の管理、LLMコンテキスト管理などの低レベルの実装の詳細処理を含むことが多い。
これらの課題に対処するために,LLM機能と検索拡張生成(RAG)を深く統合したDBMSの拡張であるFlockMTLを紹介した。
FlockMTLにはモデル駆動スカラーと集約関数が含まれており、タプルレベルのマッピングとリダクションによるチェーン予測を可能にする。
FlockMTLはリレーショナルモデルからインスピレーションを得た。
i) バッチ処理やキャッシュといった手法をシームレスに適用するコストベースの最適化。
リソースの独立性は、新しいSQL DDL抽象化によって実現された: PROMPT と MODEL、TABLE と共にファーストクラスのスキーマオブジェクトとして導入された。
FlockMTLは知識集約分析アプリケーションの開発を効率化し、その最適化により実装の負担が軽減される。
関連論文リスト
- Towards Agentic Schema Refinement [3.7173623393215287]
本稿では,データベースとユーザ間のセマンティックレイヤを,小さくて分かりやすいデータベースビューの集合として提案する。
弊社のアプローチは、LLMによる不安定なデータベースの探索の道を開くものだ。
論文 参考訳(メタデータ) (2024-11-25T19:57:16Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Meaning Typed Prompting: A Technique for Efficient, Reliable Structured Output Generation [0.0]
本稿では,効率的な構造化出力生成技術であるMeaning Typed Prompting (MTP)を紹介する。
表現力のある型定義を利用することで、MTPは出力の明確さを高め、複雑な抽象化への依存を減らす。
本稿では,MPPを実装したフレームワークであるSemantixについて紹介する。
論文 参考訳(メタデータ) (2024-10-22T20:43:50Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - CRE-LLM: A Domain-Specific Chinese Relation Extraction Framework with Fine-tuned Large Language Model [1.9950682531209156]
ドメイン特化中国語関係抽出(DSCRE)は、ドメイン特化中国語テキストからエンティティ間の関係を抽出することを目的としている。
自然言語処理における大規模言語モデル(LLM)の優れた性能を考えると、CRE-LLMと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:27:15Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。