論文の概要: Why LLMs Are Bad at Synthetic Table Generation (and what to do about it)
- arxiv url: http://arxiv.org/abs/2406.14541v3
- Date: Thu, 13 Mar 2025 21:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:28.853276
- Title: Why LLMs Are Bad at Synthetic Table Generation (and what to do about it)
- Title(参考訳): LLMはなぜ合成表生成に悪いのか(そしてどうしたらいいのか)
- Authors: Shengzhe Xu, Cho-Ting Lee, Mandar Sharma, Raquib Bin Yousuf, Nikhil Muralidhar, Naren Ramakrishnan,
- Abstract要約: 合成データ生成は、トレーニングデータを増強したり、機密情報を置き換えたり、DeepSeekのような先進的なプラットフォームに電力を供給するなど、MLパイプラインに不可欠なものだ。
合成データ生成のための微調整 LLM が普及している一方で、合成表生成はテキストや画像合成と比較して未探索のままである。
本稿では, 従来の微調整に用いたとしても, LLMが合成表の生成に不適であることを示す。
- 参考スコア(独自算出の注目度): 11.266896863556124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation is integral to ML pipelines, e.g., to augment training data, replace sensitive information, and even to power advanced platforms like DeepSeek. While LLMs fine-tuned for synthetic data generation are gaining traction, synthetic table generation -- a critical data type in business and science -- remains under-explored compared to text and image synthesis. This paper shows that LLMs, whether used as-is or after traditional fine-tuning, are inadequate for generating synthetic tables. Their autoregressive nature, combined with random order permutation during fine-tuning, hampers the modeling of functional dependencies and prevents capturing conditional mixtures of distributions essential for real-world constraints. We demonstrate that making LLMs permutation-aware can mitigate these issues.
- Abstract(参考訳): 合成データ生成は、トレーニングデータを増強したり、機密情報を置き換えたり、DeepSeekのような先進的なプラットフォームに電力を供給したりするために、MLパイプラインに不可欠なものだ。
合成データ生成用に微調整されたLCMは勢いを増しているが、ビジネスや科学における重要なデータタイプである合成テーブル生成は、テキストや画像合成と比較してまだ未調査である。
本稿では, 従来の微調整に用いたとしても, LLMが合成表の生成に不適であることを示す。
彼らの自己回帰的な性質は、微調整中のランダムな順序の置換と相まって、機能的依存関係のモデリングを妨げ、実世界の制約に不可欠な分布の条件付き混合を捕捉するのを防ぐ。
LLMの順列化を意識することで,これらの問題を緩和できることを実証する。
関連論文リスト
- MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation [10.231668557630577]
本稿では,メタプロンプトによる多様性を高める合成データ生成手法を提案する。
我々は、よく訓練されたLSMをFinanceとBiomedicineの2つの専門領域に適応させることに成功した。
以上の結果から, 実データと混合することなく, 数百万の多様な合成データのトークンを合成することは, 効果的なドメイン適応に十分であることが示唆された。
論文 参考訳(メタデータ) (2025-04-17T01:25:15Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードの両方で合成トレーニングデータを生成する新たな可能性を開いた。
これらの手法が,分類や質問応答などの低リソースなタスクをどのように強化するかを示す。
生成したテキストの事実的不正確さ、スタイリスティックなリアリズムの欠如、バイアス増幅のリスクといった課題に対処する。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。
LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。
鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文 参考訳(メタデータ) (2025-02-09T16:43:32Z) - Can a Large Language Model Learn Matrix Functions In Context? [3.7478782183628634]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を通じて複雑なタスクを解く能力を実証した。
本稿では,LLMの非線形数値計算能力について検討し,特異値分解関数に着目した。
論文 参考訳(メタデータ) (2024-11-24T00:33:43Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Misinforming LLMs: vulnerabilities, challenges and opportunities [4.54019093815234]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げているが、その基盤となるメカニズムはしばしば誤解されている。
本稿では,現在のLLMアーキテクチャは,単語埋め込みベクトルの逐次パターンの相関に依存するため,本質的に不確実であると主張している。
生成トランスフォーマーベースのモデルとファクトベースと論理プログラミング言語を組み合わせる研究は、信頼できるLLMの開発に繋がる可能性がある。
論文 参考訳(メタデータ) (2024-08-02T10:35:49Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。
FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文 参考訳(メタデータ) (2024-04-15T06:26:08Z) - Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal [49.24054920683246]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。
自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-02T16:11:23Z) - Data Science with LLMs and Interpretable Models [19.4969442162327]
大きな言語モデル(LLM)は解釈可能なモデルを扱うのに非常に適しています。
LLMはGAM(Generalized Additive Models)を記述、解釈、デバッグできることを示す。
論文 参考訳(メタデータ) (2024-02-22T12:04:15Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - LLMs Understand Glass-Box Models, Discover Surprises, and Suggest
Repairs [10.222281712562705]
大規模言語モデル(LLM)は解釈可能なモデルを扱うのに非常に優れていることを示す。
推論に階層的なアプローチを採用することで、LLMは包括的なモデルレベルの要約を提供することができる。
パッケージ $textttTalkToEBM$ をオープンソース LLM-GAM インターフェースとして提示する。
論文 参考訳(メタデータ) (2023-08-02T13:59:35Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。