論文の概要: Large Language Models as Data Preprocessors
- arxiv url: http://arxiv.org/abs/2308.16361v2
- Date: Sun, 27 Oct 2024 19:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 16:01:29.597499
- Title: Large Language Models as Data Preprocessors
- Title(参考訳): データプリプロセッサとしての大規模言語モデル
- Authors: Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada,
- Abstract要約: 大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.99065004972981
- License:
- Abstract: Large Language Models (LLMs), typified by OpenAI's GPT, have marked a significant advancement in artificial intelligence. Trained on vast amounts of text data, LLMs are capable of understanding and generating human-like text across a diverse range of topics. This study expands on the applications of LLMs, exploring their potential in data preprocessing, a critical stage in data mining and analytics applications. Aiming at tabular data, we delve into the applicability of state-of-the-art LLMs such as GPT-4 and GPT-4o for a series of preprocessing tasks, including error detection, data imputation, schema matching, and entity matching. Alongside showcasing the inherent capabilities of LLMs, we highlight their limitations, particularly in terms of computational expense and inefficiency. We propose an LLM-based framework for data preprocessing, which integrates cutting-edge prompt engineering techniques, coupled with traditional methods like contextualization and feature selection, to improve the performance and efficiency of these models. The effectiveness of LLMs in data preprocessing is evaluated through an experimental study spanning a variety of public datasets. GPT-4 emerged as a standout, achieving 100\% accuracy or F1 score on 4 of these datasets, suggesting LLMs' immense potential in these tasks. Despite certain limitations, our study underscores the promise of LLMs in this domain and anticipates future developments to overcome current hurdles.
- Abstract(参考訳): OpenAIのGPTに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
大量のテキストデータに基づいて学習されたLLMは、さまざまなトピックにわたって人間のようなテキストを理解し、生成することができる。
この研究は、LLMの応用を拡大し、データマイニングおよび分析アプリケーションにおける重要な段階であるデータ前処理におけるその可能性を探る。
GPT-4やGPT-4oのような最先端のLCMの適用性について検討し,エラー検出,データインプット,スキーママッチング,エンティティマッチングなど,一連の前処理タスクについて検討した。
LLMの本質的な能力を示すとともに、特に計算コストや非効率の観点から、その限界を強調します。
最先端のプロンプトエンジニアリング技術とコンテキスト化や特徴選択といった従来の手法を組み合わせたデータ前処理のためのLCMベースのフレームワークを提案し,これらのモデルの性能と効率を向上させる。
データ前処理におけるLLMの有効性は、様々な公開データセットにまたがる実験的研究を通じて評価される。
GPT-4は、これらの4つのデータセットの100\%の精度またはF1のスコアを達成し、これらのタスクにおいてLLMの持つ大きな可能性を示唆した。
一定の限界にもかかわらず、本研究は、この領域におけるLCMの約束を強調し、現在のハードルを克服する将来の発展を期待する。
関連論文リスト
- Towards Robust Evaluation of Unlearning in LLMs via Data Transformations [17.927224387698903]
大きな言語モデル(LLM)は、通常のNLPベースのユースケースからAIエージェントまで、幅広いアプリケーションで大きな成功を収めている。
近年,マシン・アンラーニング(MUL)分野の研究が活発化している。
主な考え方は、LLMが通常のタスクのパフォーマンス損失に悩まされることなく、特定の情報(例えば、PII)を忘れること(未学習)を強制することである。
論文 参考訳(メタデータ) (2024-11-23T07:20:36Z) - Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges [47.45993726498343]
データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。
本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - Large Language Models for Data Annotation: A Survey [49.8318827245266]
LLM(Advanced Large Language Models)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。
この調査には、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論が含まれている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。