論文の概要: Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science
- arxiv url: http://arxiv.org/abs/2403.20208v4
- Date: Sun, 7 Apr 2024 02:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 00:16:23.884401
- Title: Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science
- Title(参考訳): データサイエンスにおける予測的語彙課題に対する大規模言語モデルの可能性
- Authors: Yazheng Yang, Yuqi Wang, Sankalok Sen, Lei Li, Qi Liu,
- Abstract要約: この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
- 参考スコア(独自算出の注目度): 17.910306140400046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the domain of data science, the predictive tasks of classification, regression, and imputation of missing values are commonly encountered challenges associated with tabular data. This research endeavors to apply Large Language Models (LLMs) towards addressing these predictive tasks. Despite their proficiency in comprehending natural language, LLMs fall short in dealing with structured tabular data. This limitation stems from their lacking exposure to the intricacies of tabular data during their foundational training. Our research aims to mitigate this gap by compiling a comprehensive corpus of tables annotated with instructions and executing large-scale training of Llama-2 on this enriched dataset. Furthermore, we investigate the practical application of applying the trained model to zero-shot prediction, few-shot prediction, and in-context learning scenarios. Through extensive experiments, our methodology has shown significant improvements over existing benchmarks. These advancements highlight the efficacy of tailoring LLM training to solve table-related problems in data science, thereby establishing a new benchmark in the utilization of LLMs for enhancing tabular intelligence.
- Abstract(参考訳): データサイエンスの分野において、欠落した値の分類、回帰、計算の予測タスクは、表型データに関連する問題によく遭遇する。
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
自然言語を解釈する能力にもかかわらず、LLMは構造化された表データを扱うには不十分である。
この制限は、基礎的なトレーニング中に表データの複雑さに欠けることに起因する。
本研究の目的は、この拡張データセット上で、注釈付きテーブルの包括的コーパスをコンパイルし、Llama-2の大規模トレーニングを実行することにより、このギャップを軽減することである。
さらに、訓練されたモデルをゼロショット予測、少数ショット予測、文脈内学習シナリオに適用する実践的応用について検討する。
大規模な実験を通じて、我々の方法論は既存のベンチマークよりも大幅に改善されている。
これらの進歩は、データサイエンスにおけるテーブル関連問題を解決するためのLLMトレーニングの調整の有効性を強調し、表知性を高めるためにLLMを利用するための新しいベンチマークを確立する。
関連論文リスト
- Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study [41.84915013818794]
The Natural Language to Visualization (NL2Vis) taskは、自然言語記述を接地テーブルの視覚表現に変換することを目的としている。
多くのディープラーニングベースのアプローチがNL2Vis向けに開発されているが、目に見えないデータベースや複数のテーブルにまたがるデータの視覚化には課題が続いている。
本稿では,Large Language Models (LLMs) の顕著な生成能力からインスピレーションを得て,その可能性を評価するための実証的研究を行う。
論文 参考訳(メタデータ) (2024-04-26T03:25:35Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and
Challenges [49.039080454730566]
データ拡張(DA)は、モデルパフォーマンスを向上させるための重要なテクニックとして現れている。
本稿では,大規模言語モデル(LLM)がDAに与える影響について検討する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - Towards Foundation Models for Learning on Tabular Data [19.546701261615368]
我々は,現在のモデルの限界を克服するために,TabFM(Tabular Foundation Models)を提案する。
TabFMは、ベースモデルとして事前訓練された大言語モデル(LLM)を採用し、目的設計の目的を用いて微調整する。
ゼロショットやインコンテキスト推論のような命令追従タスクにおいてTabFMが優れていることを示す。
また,TabFMの限界や可能性についても検討し,より強力なTabFMの開発に向けた今後の研究を刺激し,促進することを目的とする。
論文 参考訳(メタデータ) (2023-10-11T09:37:38Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、ITの一般的な方法論、ITデータセットの構築、ITモデルのトレーニング、異なるモダリティ、ドメイン、アプリケーションへのアプリケーションを含む、文献を体系的にレビューする。
また、ITの潜在的な落とし穴とそれに対する批判、および既存の戦略の現在の欠陥を指摘し、実りある研究の道筋を提案する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。