論文の概要: LLM-Enhanced Data Management
- arxiv url: http://arxiv.org/abs/2402.02643v1
- Date: Sun, 4 Feb 2024 23:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:25:01.769358
- Title: LLM-Enhanced Data Management
- Title(参考訳): LLMによるデータ管理
- Authors: Xuanhe Zhou, Xinyang Zhao, Guoliang Li
- Abstract要約: 大規模言語モデル(LLM)は文脈理解において高い一般化性と人間競合能力を示す。
LLMには幻覚、高コスト、複雑なタスクに対する低精度のいくつかの制限がある。
我々は、幻覚を避けつつ、一般化性と高い推論能力を有するLLMDBを設計する。
- 参考スコア(独自算出の注目度): 17.382233123729755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) techniques for optimizing data management problems have
been extensively studied and widely deployed in recent five years. However
traditional ML methods have limitations on generalizability (adapting to
different scenarios) and inference ability (understanding the context).
Fortunately, large language models (LLMs) have shown high generalizability and
human-competitive abilities in understanding context, which are promising for
data management tasks (e.g., database diagnosis, database tuning). However,
existing LLMs have several limitations: hallucination, high cost, and low
accuracy for complicated tasks. To address these challenges, we design LLMDB,
an LLM-enhanced data management paradigm which has generalizability and high
inference ability while avoiding hallucination, reducing LLM cost, and
achieving high accuracy. LLMDB embeds domain-specific knowledge to avoid
hallucination by LLM fine-tuning and prompt engineering. LLMDB reduces the high
cost of LLMs by vector databases which provide semantic search and caching
abilities. LLMDB improves the task accuracy by LLM agent which provides
multiple-round inference and pipeline executions. We showcase three real-world
scenarios that LLMDB can well support, including query rewrite, database
diagnosis and data analytics. We also summarize the open research challenges of
LLMDB.
- Abstract(参考訳): データ管理問題を最適化するための機械学習(ML)技術は、近年広く研究され、広く展開されている。
しかしながら、従来のmlメソッドは、一般化可能性(異なるシナリオに適応する)と推論能力(コンテキストを理解する)に制限がある。
幸いなことに、大規模言語モデル(LLM)は、データ管理タスク(例えば、データベース診断、データベースチューニング)を約束するコンテキスト理解において、高い一般化性と人間競合能力を示している。
しかし、既存のLLMには幻覚、高コスト、複雑なタスクに対する低精度のいくつかの制限がある。
これらの課題に対処するために,幻覚を回避し,LLMコストを低減し,高い精度を実現するとともに,一般化性と高い推論能力を有するLLMDBを設計する。
LLMDBは、LLMの微調整による幻覚を避けるために、ドメイン固有の知識を埋め込んだ。
LLMDBは、セマンティック検索とキャッシング機能を提供するベクトルデータベースにより、LCMのコストを下げる。
LLMDBはマルチラウンド推論とパイプライン実行を提供するLLMエージェントによってタスクの精度を向上させる。
LLMDBはクエリの書き直し、データベースの診断、データ分析など、実世界のシナリオを3つ紹介する。
LLMDBのオープンな研究課題についてもまとめる。
関連論文リスト
- Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-21T06:19:10Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。
GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Augmented Large Language Models with Parametric Knowledge Guiding [72.71468058502228]
大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えています。
それらのパフォーマンスは、関連するデータへの限られた露出のために専門的な知識を必要とするドメイン固有のタスクに最適であるかもしれない。
本稿では,LLMに関連知識にアクセスするための知識誘導モジュールを組み込んだ新しいPKGフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:05:16Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。