論文の概要: StreamLink: Large-Language-Model Driven Distributed Data Engineering System
- arxiv url: http://arxiv.org/abs/2505.21575v1
- Date: Tue, 27 May 2025 07:44:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.178874
- Title: StreamLink: Large-Language-Model Driven Distributed Data Engineering System
- Title(参考訳): StreamLink: 大規模言語モデル駆動分散データエンジニアリングシステム
- Authors: Dawei Feng, Di Mei, Huiri Tan, Lei Ren, Xianying Lou, Zhangxi Tan,
- Abstract要約: 大言語モデル(LLM)は、自然言語理解(NLU)において顕著な熟練度を示した。
データエンジニアリングタスクの効率性とアクセシビリティを改善するために設計された,LLM駆動の分散データシステムであるStreamLinkを紹介する。
- 参考スコア(独自算出の注目度): 2.8237743652666656
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable proficiency in natural language understanding (NLU), opening doors for innovative applications. We introduce StreamLink - an LLM-driven distributed data system designed to improve the efficiency and accessibility of data engineering tasks. We build StreamLink on top of distributed frameworks such as Apache Spark and Hadoop to handle large data at scale. One of the important design philosophies of StreamLink is to respect user data privacy by utilizing local fine-tuned LLMs instead of a public AI service like ChatGPT. With help from domain-adapted LLMs, we can improve our system's understanding of natural language queries from users in various scenarios and simplify the procedure of generating database queries like the Structured Query Language (SQL) for information processing. We also incorporate LLM-based syntax and security checkers to guarantee the reliability and safety of each generated query. StreamLink illustrates the potential of merging generative LLMs with distributed data processing for comprehensive and user-centric data engineering. With this architecture, we allow users to interact with complex database systems at different scales in a user-friendly and security-ensured manner, where the SQL generation reaches over 10\% of execution accuracy compared to baseline methods, and allow users to find the most concerned item from hundreds of millions of items within a few seconds using natural language.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語理解(NLU)において顕著な能力を示し、革新的な応用の扉を開く。
データエンジニアリングタスクの効率性とアクセシビリティを改善するために設計された,LLM駆動の分散データシステムであるStreamLinkを紹介する。
当社はApache SparkやHadoopといった分散フレームワーク上にStreamLinkを構築して,大規模データを大規模に処理しています。
StreamLinkの重要な設計哲学の1つは、ChatGPTのような公開AIサービスではなく、ローカルに調整されたLLMを利用することで、ユーザのデータプライバシを尊重することである。
ドメイン適応型LLMの助けを借りて,様々なシナリオのユーザによる自然言語クエリの理解を改善し,構造化クエリ言語(SQL)などのデータベースクエリを生成する手順を簡素化する。
また、LLMベースの構文とセキュリティチェッカーを組み込んで、生成されたクエリの信頼性と安全性を保証します。
StreamLinkは、ジェネレーティブなLLMと分散データ処理を統合して、包括的でユーザ中心のデータエンジニアリングを可能にする可能性を説明している。
このアーキテクチャにより、ユーザは、ユーザフレンドリでセキュリティに保証された方法で、複雑なデータベースシステムと異なるスケールで対話することが可能になります。
関連論文リスト
- Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-21T06:19:10Z) - ERATTA: Extreme RAG for Table To Answers with Large Language Models [1.3318204310917532]
検索拡張現実(RAG)を備えた大規模言語モデル(LLM)は、スケーラブルな生成AIソリューションに最適な選択肢である。
本研究では,データ認証,ユーザクエリルーティング,データ検索,エンタープライズデータテーブルからの質問応答機能へのカスタムプロンプトを実現するために,複数のLLMを起動可能なLLMベースのユニークなシステムを提案する。
提案するシステムと評価基準は,持続可能性,財務状況,ソーシャルメディア領域において,数百のユーザクエリに対して,90%以上の信頼性スコアを達成している。
論文 参考訳(メタデータ) (2024-05-07T02:49:59Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Querying Large Language Models with SQL [16.383179496709737]
多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。
事前訓練されたLarge Language Models (LLMs) の台頭に伴い、大量のテキストコーパスから抽出された情報を保存および使用するための効果的なソリューションが現在存在する。
本稿では,従来のデータベースアーキテクチャに基づくプロトタイプであるGaloisについて紹介する。
論文 参考訳(メタデータ) (2023-04-02T06:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。