論文の概要: Empowering Tabular Data Preparation with Language Models: Why and How?
- arxiv url: http://arxiv.org/abs/2508.01556v1
- Date: Sun, 03 Aug 2025 03:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.937849
- Title: Empowering Tabular Data Preparation with Language Models: Why and How?
- Title(参考訳): 言語モデルによる語彙データ作成の強化:なぜとどのように?
- Authors: Mengshi Chen, Yuxiang Sun, Tengchao Li, Jianwei Wang, Kai Wang, Xuemin Lin, Ying Zhang, Wenjie Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、データ準備の自動化とサポートのための新しい機会を提供する。
データ取得、統合、クリーニング、変換の4つのフェーズに重点を置いています。
各フェーズに対して、異なる準備作業のために、LMを他のコンポーネントとどのように組み合わせるかを総合的に分析する。
- 参考スコア(独自算出の注目度): 28.0716976819857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data preparation is a critical step in enhancing the usability of tabular data and thus boosts downstream data-driven tasks. Traditional methods often face challenges in capturing the intricate relationships within tables and adapting to the tasks involved. Recent advances in Language Models (LMs), especially in Large Language Models (LLMs), offer new opportunities to automate and support tabular data preparation. However, why LMs suit tabular data preparation (i.e., how their capabilities match task demands) and how to use them effectively across phases still remain to be systematically explored. In this survey, we systematically analyze the role of LMs in enhancing tabular data preparation processes, focusing on four core phases: data acquisition, integration, cleaning, and transformation. For each phase, we present an integrated analysis of how LMs can be combined with other components for different preparation tasks, highlight key advancements, and outline prospective pipelines.
- Abstract(参考訳): データ準備は、表データのユーザビリティを高めるための重要なステップであり、従って、下流のデータ駆動タスクを強化する。
伝統的な手法は、しばしばテーブル内の複雑な関係を捉え、関連するタスクに適応する際の課題に直面します。
言語モデル(LM)の最近の進歩、特にLarge Language Models(LLM)は、表のデータ準備を自動化する新しい機会を提供する。
しかし、LMが表形式のデータ準備(すなわち、その能力がタスク要求とどのように一致しているか)に適合する理由と、それをフェーズ間で効果的に利用する方法については、体系的に検討される必要がある。
本研究では,データ取得,統合,クリーニング,変換の4段階に焦点をあて,表型データ作成プロセスの強化におけるLMの役割を系統的に分析する。
各フェーズに対して、異なる準備作業のためにLMを他のコンポーネントとどのように組み合わせるか、キーの進歩を強調し、将来的なパイプラインの概要をまとめて分析する。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset [52.286323454512996]
大規模言語モデル(LLM)は、テキストと表のデータを含むハイブリッドテキストを理解し解析することができる。
本研究では,LLMがHLD(Hybrid Long Document)を処理できるようにするための自動情報抽出フレームワーク(AIE)を提案し,HLDからの情報抽出の4つの重要な側面を分析する実験を行った。
HLDにおけるデータセット不足の問題に対処し、今後の作業を支援するために、金融レポート数値抽出(FINE)データセットを提案する。
論文 参考訳(メタデータ) (2024-12-28T07:54:14Z) - PORTAL: Scalable Tabular Foundation Models via Content-Specific Tokenization [7.036380633387952]
我々は、クリーニングや前処理を必要とせずに、様々なデータモダリティを処理するフレームワーク、 Portal(Pretraining One-Row-at-a-Time for All tabLes)を紹介します。
オンラインにコンパイルされたデータセットで効果的に事前トレーニングされ、複雑な分類と回帰タスクに関する最先端の手法に適合するように微調整される。
論文 参考訳(メタデータ) (2024-10-17T13:05:44Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.282770819829913]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Process-BERT: A Framework for Representation Learning on Educational
Process Data [68.8204255655161]
本稿では,教育プロセスデータの表現を学習するためのフレームワークを提案する。
我々のフレームワークは、BERT型の目的を用いて、シーケンシャルなプロセスデータから表現を学習する事前学習ステップで構成されています。
当社のフレームワークは,2019年国のレポートカードデータマイニングコンペティションデータセットに適用しています。
論文 参考訳(メタデータ) (2022-04-28T16:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。