論文の概要: Large Language Models as Data Preprocessors
- arxiv url: http://arxiv.org/abs/2308.16361v1
- Date: Wed, 30 Aug 2023 23:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 18:20:10.019519
- Title: Large Language Models as Data Preprocessors
- Title(参考訳): データプリプロセッサとしての大規模言語モデル
- Authors: Haochen Zhang, Yuyang Dong, Chuan Xiao, Masafumi Oyamada
- Abstract要約: OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.914067455923847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), typified by OpenAI's GPT series and Meta's
LLaMA variants, have marked a significant advancement in artificial
intelligence. Trained on vast amounts of text data, LLMs are capable of
understanding and generating human-like text across a diverse range of topics.
This study expands on the applications of LLMs, exploring their potential in
data preprocessing, a critical stage in data mining and analytics applications.
We delve into the applicability of state-of-the-art LLMs such as GPT-3.5,
GPT-4, and Vicuna-13B for error detection, data imputation, schema matching,
and entity matching tasks. Alongside showcasing the inherent capabilities of
LLMs, we highlight their limitations, particularly in terms of computational
expense and inefficiency. We propose an LLM-based framework for data
preprocessing, which integrates cutting-edge prompt engineering techniques,
coupled with traditional methods like contextualization and feature selection,
to improve the performance and efficiency of these models. The effectiveness of
LLMs in data preprocessing is evaluated through an experimental study spanning
12 datasets. GPT-4 emerged as a standout, achieving 100\% accuracy or F1 score
on 4 datasets, suggesting LLMs' immense potential in these tasks. Despite
certain limitations, our study underscores the promise of LLMs in this domain
and anticipates future developments to overcome current hurdles.
- Abstract(参考訳): OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
大量のテキストデータに基づいて学習されたLLMは、さまざまなトピックにわたって人間のようなテキストを理解し、生成することができる。
この研究は、LLMの応用を拡大し、データマイニングおよび分析アプリケーションにおける重要な段階であるデータ前処理におけるその可能性を探る。
GPT-3.5, GPT-4, Vicuna-13Bといった最先端のLCMをエラー検出, データ計算, スキーママッチング, エンティティマッチングタスクに適用可能であるか検討する。
LLMの本質的能力を示すとともに,計算コストや非効率の観点から,その限界を強調した。
最先端のプロンプトエンジニアリング技術とコンテキスト化や特徴選択といった従来の手法を組み合わせたデータ前処理のためのLCMベースのフレームワークを提案し,これらのモデルの性能と効率を向上させる。
データ前処理におけるLLMの有効性は、12データセットにわたる実験によって評価される。
GPT-4はスタンドアウトとして現れ、4つのデータセットで100\%の精度またはF1スコアを達成した。
一定の限界はあるものの、本研究はこの領域におけるLCMの約束を強調し、現在のハードルを克服する将来の発展を期待する。
関連論文リスト
- Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and
Challenges [49.039080454730566]
データ拡張(DA)は、モデルパフォーマンスを向上させるための重要なテクニックとして現れている。
本稿では,大規模言語モデル(LLM)がDAに与える影響について検討する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Large Language Models for Data Annotation: A Survey [58.454724454158814]
LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes [62.94611066903098]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Large Language Models for Software Engineering: A Systematic Literature
Review [35.260023199700306]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)を含む多くの領域に大きな影響を与えている。
我々は2017年から2023年までの229件の研究論文を収集し分析し、4つの重要な研究課題(RQ)に答える。
これらのRQに対する回答から、現在の最先端とトレンド、既存の研究のギャップの特定、今後の研究に向けた有望な領域のフラグ付けなどについて論じる。
論文 参考訳(メタデータ) (2023-08-21T10:37:49Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。
従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。
本稿では,本論文の総合的研究について述べる。
自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。