論文の概要: Lost in the Pipeline: How Well Do Large Language Models Handle Data Preparation?
- arxiv url: http://arxiv.org/abs/2511.21708v1
- Date: Mon, 17 Nov 2025 19:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.349575
- Title: Lost in the Pipeline: How Well Do Large Language Models Handle Data Preparation?
- Title(参考訳): パイプラインでの損失: 大規模言語モデルはデータ準備をどの程度うまく扱えるか?
- Authors: Matteo Spreafico, Ludovica Tassini, Camilla Sancricca, Cinzia Cappiello,
- Abstract要約: 本稿では,データ作成タスクの選択と自動化において,大規模言語モデルがユーザを効果的に支援できるかどうかを検討する。
私たちはこれらのモデルを質の悪いデータセットで促し、データプロファイリングやクリーニングといったタスクを実行する能力を測定しました。
大規模言語モデルの能力を評価するため,ユーザスタディを通じて検証されたカスタムデザインの品質モデルを開発した。
- 参考スコア(独自算出の注目度): 0.7291396653006809
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models have recently demonstrated their exceptional capabilities in supporting and automating various tasks. Among the tasks worth exploring for testing large language model capabilities, we considered data preparation, a critical yet often labor-intensive step in data-driven processes. This paper investigates whether large language models can effectively support users in selecting and automating data preparation tasks. To this aim, we considered both general-purpose and fine-tuned tabular large language models. We prompted these models with poor-quality datasets and measured their ability to perform tasks such as data profiling and cleaning. We also compare the support provided by large language models with that offered by traditional data preparation tools. To evaluate the capabilities of large language models, we developed a custom-designed quality model that has been validated through a user study to gain insights into practitioners' expectations.
- Abstract(参考訳): 大規模言語モデルは、最近、様々なタスクをサポートし、自動化する際、例外的な能力を実証した。
大きな言語モデル機能をテストする上で価値のあるタスクのうち、私たちはデータ準備について検討しました。
本稿では,データ作成タスクの選択と自動化において,大規模言語モデルがユーザを効果的に支援できるかどうかを検討する。
そこで本研究では,汎用および微調整型大言語モデルの検討を行った。
私たちはこれらのモデルを質の悪いデータセットで促し、データプロファイリングやクリーニングといったタスクを実行する能力を測定しました。
また、大きな言語モデルで提供されるサポートと、従来のデータ準備ツールで提供されるものを比較します。
大規模言語モデルの能力を評価するため,ユーザスタディを通じて検証されたカスタムデザインの品質モデルを開発し,実践者の期待を把握した。
関連論文リスト
- Evolution without Large Models: Training Language Model with Task Principles [52.44569608690695]
言語モデルの一般的なトレーニングアプローチは、人間が提供したデータセットを拡張するために、大規模な言語モデルを使用することである。
この方法は、広範囲な人的データアノテーションの必要性を排除し、トレーニングコストを大幅に削減する。
しかし、データ拡張時の二酸化炭素排出量の増加や、データ漏洩のリスクなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2025-07-08T13:52:45Z) - Large Language Models in the Task of Automatic Validation of Text Classifier Predictions [45.88028371034407]
テキスト分類のための機械学習モデルは、与えられたテキストのクラスを予測するために訓練される。
これを行うには、トレーニングと検証のサンプルを用意し、各テキストにクラスを割り当てる必要がある。
人間のアノテーションは通常、特定の分類タスクによって異なる専門レベルを持つ人間のアノテーションによって割り当てられる。
本稿では,人間のアノテータを大規模言語モデルに置き換えるためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:19:03Z) - Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。
本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文 参考訳(メタデータ) (2024-12-03T03:59:03Z) - InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。
パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。
複数の言語にまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-08-30T05:42:31Z) - Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution [7.681258910515419]
タブラルデータは、その異種の性質と複雑な構造的関係により、固有の課題を示す。
表型データ解析における高い予測性能とロバスト性は、多くのアプリケーションにとって大きな可能性を秘めている。
GPTやLLaMAといった最近の大規模言語モデルの出現はこの分野にさらなる革命をもたらし、最小限の微調整でより高度で多様なアプリケーションを容易にした。
論文 参考訳(メタデータ) (2024-08-20T04:59:19Z) - Software Model Evolution with Large Language Models: Experiments on Simulated, Public, and Industrial Datasets [6.585732390922304]
RAMCを用いたモデル補完のための大規模言語モデルの可能性を評価する。
大規模な言語モデルは、ソフトウェアモデルの進化をサポートするための有望な技術であることがわかった。
大規模言語モデルの一般的な推論能力は、ほとんど、うるさい、あるいは全く例のない概念を扱う際に特に有用である。
論文 参考訳(メタデータ) (2024-06-25T15:43:20Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-09T06:57:45Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。