論文の概要: Why LLMs Are Bad at Synthetic Table Generation (and what to do about it)
- arxiv url: http://arxiv.org/abs/2406.14541v3
- Date: Thu, 13 Mar 2025 21:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:03:40.818198
- Title: Why LLMs Are Bad at Synthetic Table Generation (and what to do about it)
- Title(参考訳): LLMはなぜ合成表生成に悪いのか(そしてどうしたらいいのか)
- Authors: Shengzhe Xu, Cho-Ting Lee, Mandar Sharma, Raquib Bin Yousuf, Nikhil Muralidhar, Naren Ramakrishnan,
- Abstract要約: 合成データ生成は、トレーニングデータを増強したり、機密情報を置き換えたり、DeepSeekのような先進的なプラットフォームに電力を供給するなど、MLパイプラインに不可欠なものだ。
合成データ生成のための微調整 LLM が普及している一方で、合成表生成はテキストや画像合成と比較して未探索のままである。
本稿では, 従来の微調整に用いたとしても, LLMが合成表の生成に不適であることを示す。
- 参考スコア(独自算出の注目度): 11.266896863556124
- License:
- Abstract: Synthetic data generation is integral to ML pipelines, e.g., to augment training data, replace sensitive information, and even to power advanced platforms like DeepSeek. While LLMs fine-tuned for synthetic data generation are gaining traction, synthetic table generation -- a critical data type in business and science -- remains under-explored compared to text and image synthesis. This paper shows that LLMs, whether used as-is or after traditional fine-tuning, are inadequate for generating synthetic tables. Their autoregressive nature, combined with random order permutation during fine-tuning, hampers the modeling of functional dependencies and prevents capturing conditional mixtures of distributions essential for real-world constraints. We demonstrate that making LLMs permutation-aware can mitigate these issues.
- Abstract(参考訳): 合成データ生成は、トレーニングデータを増強したり、機密情報を置き換えたり、DeepSeekのような先進的なプラットフォームに電力を供給したりするために、MLパイプラインに不可欠なものだ。
合成データ生成用に微調整されたLCMは勢いを増しているが、ビジネスや科学における重要なデータタイプである合成テーブル生成は、テキストや画像合成と比較してまだ未調査である。
本稿では, 従来の微調整に用いたとしても, LLMが合成表の生成に不適であることを示す。
彼らの自己回帰的な性質は、微調整中のランダムな順序の置換と相まって、機能的依存関係のモデリングを妨げ、実世界の制約に不可欠な分布の条件付き混合を捕捉するのを防ぐ。
LLMの順列化を意識することで,これらの問題を緩和できることを実証する。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Can a Large Language Model Learn Matrix Functions In Context? [3.7478782183628634]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を通じて複雑なタスクを解く能力を実証した。
本稿では,LLMの非線形数値計算能力について検討し,特異値分解関数に着目した。
論文 参考訳(メタデータ) (2024-11-24T00:33:43Z) - Misinforming LLMs: vulnerabilities, challenges and opportunities [4.54019093815234]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げているが、その基盤となるメカニズムはしばしば誤解されている。
本稿では,現在のLLMアーキテクチャは,単語埋め込みベクトルの逐次パターンの相関に依存するため,本質的に不確実であると主張している。
生成トランスフォーマーベースのモデルとファクトベースと論理プログラミング言語を組み合わせる研究は、信頼できるLLMの開発に繋がる可能性がある。
論文 参考訳(メタデータ) (2024-08-02T10:35:49Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。
FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文 参考訳(メタデータ) (2024-04-15T06:26:08Z) - Data Science with LLMs and Interpretable Models [19.4969442162327]
大きな言語モデル(LLM)は解釈可能なモデルを扱うのに非常に適しています。
LLMはGAM(Generalized Additive Models)を記述、解釈、デバッグできることを示す。
論文 参考訳(メタデータ) (2024-02-22T12:04:15Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - LLMs Understand Glass-Box Models, Discover Surprises, and Suggest
Repairs [10.222281712562705]
大規模言語モデル(LLM)は解釈可能なモデルを扱うのに非常に優れていることを示す。
推論に階層的なアプローチを採用することで、LLMは包括的なモデルレベルの要約を提供することができる。
パッケージ $textttTalkToEBM$ をオープンソース LLM-GAM インターフェースとして提示する。
論文 参考訳(メタデータ) (2023-08-02T13:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。