論文の概要: A Survey of LLM $\times$ DATA
- arxiv url: http://arxiv.org/abs/2505.18458v1
- Date: Sat, 24 May 2025 01:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.438099
- Title: A Survey of LLM $\times$ DATA
- Title(参考訳): LLM$\times$ dataに関する調査
- Authors: Xuanhe Zhou, Junxuan He, Wei Zhou, Haodong Chen, Zirui Tang, Haoyu Zhao, Xin Tong, Guoliang Li, Youmin Chen, Jun Zhou, Zhaojun Sun, Binyuan Hui, Shuo Wang, Conghui He, Zhiyuan Liu, Jingren Zhou, Fan Wu,
- Abstract要約: 大規模言語モデル(LLM)とデータ管理(Data4LLM)の統合は、両方のドメインを急速に再定義しています。
一方、Data data4LLMは、事前トレーニング、後トレーニング、検索強化生成、エージェント生成などの段階に必要なデータの高品質、多様性、タイムラインをLLMに提供する。
一方、LLMはデータ管理のための汎用エンジンとして登場しつつある。
- 参考スコア(独自算出の注目度): 71.96808497574658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of large language model (LLM) and data management (DATA) is rapidly redefining both domains. In this survey, we comprehensively review the bidirectional relationships. On the one hand, DATA4LLM, spanning large-scale data processing, storage, and serving, feeds LLMs with high quality, diversity, and timeliness of data required for stages like pre-training, post-training, retrieval-augmented generation, and agentic workflows: (i) Data processing for LLMs includes scalable acquisition, deduplication, filtering, selection, domain mixing, and synthetic augmentation; (ii) Data Storage for LLMs focuses on efficient data and model formats, distributed and heterogeneous storage hierarchies, KV-cache management, and fault-tolerant checkpointing; (iii) Data serving for LLMs tackles challenges in RAG (e.g., knowledge post-processing), LLM inference (e.g., prompt compression, data provenance), and training strategies (e.g., data packing and shuffling). On the other hand, in LLM4DATA, LLMs are emerging as general-purpose engines for data management. We review recent advances in (i) data manipulation, including automatic data cleaning, integration, discovery; (ii) data analysis, covering reasoning over structured, semi-structured, and unstructured data, and (iii) system optimization (e.g., configuration tuning, query rewriting, anomaly diagnosis), powered by LLM techniques like retrieval-augmented prompting, task-specialized fine-tuning, and multi-agent collaboration.
- Abstract(参考訳): 大規模言語モデル(LLM)とデータ管理(DATA)の統合は、両方のドメインを急速に再定義しています。
本調査では,双方向関係について概観的に検討する。
一方、大規模データ処理、ストレージ、サービスにまたがるData data4LLMは、事前トレーニング、後トレーニング、検索強化生成、エージェントワークフローといったステージに必要なデータの高品質、多様性、タイムラインを提供する。
二 LLMのデータ処理には、スケーラブルな取得、重複解消、フィルタリング、選択、ドメインミキシング、合成拡張が含まれる。
2 LLMのデータストレージは、効率的なデータとモデルフォーマット、分散および異種ストレージ階層、KVキャッシュ管理、フォールトトレラントチェックポイントに重点を置いている。
3 LLMのデータ提供は、RAG(例えば、知識後処理)、LCM推論(例、即時圧縮、データ証明)、トレーニング戦略(例、データパッキング、シャッフル)の課題に取り組む。
一方、LLM4DATAでは、データ管理のための汎用エンジンとしてLLMが登場している。
最近の進歩を振り返る
i) 自動データクリーニング,統合,発見を含むデータ操作
(二)データ分析、構造化、半構造化、非構造化データに関する推論、及び
(iii)システム最適化(例えば、構成チューニング、クエリ書き換え、異常診断)は、検索強化プロンプト、タスク特殊化ファインチューニング、マルチエージェント協調といったLLM技術を活用する。
関連論文リスト
- Federated Data-Efficient Instruction Tuning for Large Language Models [34.35613476734293]
大規模言語モデルのためのフェデレーションデータ効率インストラクションチューニングであるFedHDSについて述べる。
これにより、クライアント内およびクライアント間レベルでのデータサンプルの冗長性が低下する。
実験により、FedHDSは微調整に必要なデータ量を著しく削減し、命令調整LDMの応答性を改善した。
論文 参考訳(メタデータ) (2024-10-14T15:05:51Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。