論文の概要: Enhancing Table Representations with LLM-powered Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2411.03356v1
- Date: Mon, 04 Nov 2024 19:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:20.189714
- Title: Enhancing Table Representations with LLM-powered Synthetic Data Generation
- Title(参考訳): LLMを用いた合成データ生成による表表現の強化
- Authors: Dayu Yang, Natawut Monaikul, Amanda Ding, Bozhao Tan, Kishore Mosaliganti, Giri Iyengar,
- Abstract要約: データ駆動型企業におけるデータ変換活動の文脈における表の類似性を明確に定義する。
本稿では,大規模言語モデルのコード生成とデータ操作機能を活用した,新しい合成データ生成パイプラインを提案する。
パイプラインによって生成された合成データは,提案した表類似性の定義と一致し,表表現を大幅に強化することを示す。
- 参考スコア(独自算出の注目度): 0.565395466029518
- License:
- Abstract: In the era of data-driven decision-making, accurate table-level representations and efficient table recommendation systems are becoming increasingly crucial for improving table management, discovery, and analysis. However, existing approaches to tabular data representation often face limitations, primarily due to their focus on cell-level tasks and the lack of high-quality training data. To address these challenges, we first formulate a clear definition of table similarity in the context of data transformation activities within data-driven enterprises. This definition serves as the foundation for synthetic data generation, which require a well-defined data generation process. Building on this, we propose a novel synthetic data generation pipeline that harnesses the code generation and data manipulation capabilities of Large Language Models (LLMs) to create a large-scale synthetic dataset tailored for table-level representation learning. Through manual validation and performance comparisons on the table recommendation task, we demonstrate that the synthetic data generated by our pipeline aligns with our proposed definition of table similarity and significantly enhances table representations, leading to improved recommendation performance.
- Abstract(参考訳): データ駆動意思決定の時代、テーブルレベルの正確な表現と効率的なテーブルレコメンデーションシステムは、テーブル管理、発見、分析を改善するためにますます重要になっている。
しかし、表形式のデータ表現に対する既存のアプローチは、主にセルレベルのタスクと高品質なトレーニングデータの欠如のために、しばしば制限に直面している。
これらの課題に対処するために、まず、データ駆動型企業におけるデータ変換活動の文脈において、テーブル類似性を明確に定義する。
この定義は、明確に定義されたデータ生成プロセスを必要とする合成データ生成の基礎となる。
そこで我々は,Large Language Models (LLM) のコード生成とデータ操作機能を利用した,テーブルレベルの表現学習に適した大規模合成データセットを作成するための,新しい合成データ生成パイプラインを提案する。
提案した表の類似性の定義とパイプラインが生成した合成データが一致し,表の表の表現が大幅に向上し,推薦性能が向上することを示す。
関連論文リスト
- Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Latent Diffusion for Guided Document Table Generation [4.891597567642704]
本研究は,テーブル構造のための注釈付き画像を生成するための新しいアプローチを提案する。
提案手法は,物体検出モデルの訓練に使用される合成データの質を高めることを目的としている。
実験により, 提案手法は, 学習用合成データの品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-08-19T08:46:16Z) - Synthesizing Realistic Data for Table Recognition [4.500373384879752]
本稿では,テーブル認識に特化して設計されたアノテーションデータを合成する手法を提案する。
中国の金融発表から表の構造と内容を活用することで、我々は最初の広範囲な表アノテーションデータセットを開発した。
我々は、中国の金融発表領域における実世界の複合表の初歩的ベンチマークを確立し、このベンチマークを用いて、我々の合成データに基づいてトレーニングされたモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-04-17T06:36:17Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。