論文の概要: Large Language Models in the Data Science Lifecycle: A Systematic Mapping Study
- arxiv url: http://arxiv.org/abs/2508.11698v1
- Date: Tue, 12 Aug 2025 23:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.275664
- Title: Large Language Models in the Data Science Lifecycle: A Systematic Mapping Study
- Title(参考訳): データサイエンスライフサイクルにおける大規模言語モデル:システムマッピング研究
- Authors: Sai Sanjna Chintakunta, Nathalia Nascimento, Everton Guimaraes,
- Abstract要約: 大規模言語モデル(LLM)は、多くのドメインにまたがるトランスフォーメーションツールとして登場した。
この体系的なマッピング研究は、データサイエンスライフサイクル全体を通してLLMの応用を包括的に検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Large Language Models (LLMs) have emerged as transformative tools across numerous domains, impacting how professionals approach complex analytical tasks. This systematic mapping study comprehensively examines the application of LLMs throughout the Data Science lifecycle. By analyzing relevant papers from Scopus and IEEE databases, we identify and categorize the types of LLMs being applied, the specific stages and tasks of the data science process they address, and the methodological approaches used for their evaluation. Our analysis includes a detailed examination of evaluation metrics employed across studies and systematically documents both positive contributions and limitations of LLMs when applied to data science workflows. This mapping provides researchers and practitioners with a structured understanding of the current landscape, highlighting trends, gaps, and opportunities for future research in this rapidly evolving intersection of LLMs and data science.
- Abstract(参考訳): 近年、LLM(Large Language Models)は多くのドメインにまたがってトランスフォーメーションツールとして登場し、専門家が複雑な分析タスクにどのようにアプローチするかに影響を与えている。
この体系的なマッピング研究は、データサイエンスライフサイクル全体を通してLLMの応用を包括的に検証する。
スコパスおよびIEEEデータベースから関連する論文を分析し,適用対象のLCMの種類,対象とするデータサイエンスプロセスの具体的段階と課題,評価に用いる方法論的アプローチを同定し,分類する。
本分析では,データサイエンスのワークフローに適用した場合のLCMの肯定的貢献と限界の両方を体系的に文書化する。
このマッピングは、研究者や実践者が現在の風景を構造化して理解し、LSMとデータサイエンスの急速に進化する交差点における、将来の研究のトレンド、ギャップ、機会を浮き彫りにします。
関連論文リスト
- Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology [3.470217255779291]
本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
論文 参考訳(メタデータ) (2025-09-17T13:51:29Z) - From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。
多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文 参考訳(メタデータ) (2025-09-14T12:20:39Z) - More Parameters Than Populations: A Systematic Literature Review of Large Language Models within Survey Research [0.7699714865575188]
大きな言語モデル(LLM)は、その可能性を完全に活用するために、新しい技術的課題と前提条件をもたらす。
本稿では,複数の大規模データベースからのキーワード検索に基づく体系的文献レビューの進捗状況について報告する。
本稿では, LLMの潜在的なユースケースの選択例と, 既存の文献の例に基づく落とし穴について論じる。
論文 参考訳(メタデータ) (2025-09-03T15:15:31Z) - Large Language Model-based Data Science Agent: A Survey [14.31246443624872]
本調査では、データサイエンスタスク用に設計されたLCMベースのエージェントを包括的に分析する。
エージェントの観点からは、エージェントの役割、実行、知識、リフレクションメソッドをカバーする重要な設計原則について議論する。
データサイエンスの観点から、私たちは、データ前処理、モデル開発、評価、可視化など、LLMベースのエージェントの重要なプロセスを特定します。
論文 参考訳(メタデータ) (2025-08-02T17:33:18Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - A Comprehensive Survey on Imbalanced Data Learning [56.65067795190842]
不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。
本調査は,様々な実世界のデータ形式を体系的に分析する。
さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
論文 参考訳(メタデータ) (2025-02-13T04:53:17Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - A Survey of Multimodal Large Language Model from A Data-centric Perspective [46.57232264950785]
マルチモーダル大言語モデル(MLLM)は、複数のモーダルからのデータの統合と処理によって、標準的な大言語モデルの能力を高める。
データはこれらのモデルの開発と改良において重要な役割を担います。
論文 参考訳(メタデータ) (2024-05-26T17:31:21Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。