論文の概要: P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models
- arxiv url: http://arxiv.org/abs/2406.11391v1
- Date: Mon, 17 Jun 2024 10:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:21:39.042033
- Title: P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models
- Title(参考訳): P-TA:大規模言語モデルによる語彙データ拡張を支援するための近似ポリシー最適化
- Authors: Shuo Yang, Chenchen Yuan, Yao Rong, Felix Steinbauer, Gjergji Kasneci,
- Abstract要約: 我々は、GAN(Generative Adversarial Networks)を適用するために、PPO(Maximal Policy Optimization)を提案する。
PPOは、最先端のデータセットに対して合成生成されたデータに基づいてトレーニングされたモデルの精度を約4%向上させる。
- 参考スコア(独自算出の注目度): 15.969452637480167
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A multitude of industries depend on accurate and reasonable tabular data augmentation for their business processes. Contemporary methodologies in generating tabular data revolve around utilizing Generative Adversarial Networks (GAN) or fine-tuning Large Language Models (LLM). However, GAN-based approaches are documented to produce samples with common-sense errors attributed to the absence of external knowledge. On the other hand, LLM-based methods exhibit a limited capacity to capture the disparities between synthesized and actual data distribution due to the absence of feedback from a discriminator during training. Furthermore, the decoding of LLM-based generation introduces gradient breakpoints, impeding the backpropagation of loss from a discriminator, thereby complicating the integration of these two approaches. To solve this challenge, we propose using proximal policy optimization (PPO) to apply GANs, guiding LLMs to enhance the probability distribution of tabular features. This approach enables the utilization of LLMs as generators for GANs in synthesizing tabular data. Our experiments demonstrate that PPO leads to an approximately 4\% improvement in the accuracy of models trained on synthetically generated data over state-of-the-art across three real-world datasets.
- Abstract(参考訳): 多くの業界は、彼らのビジネスプロセスに対して正確で合理的な表形式のデータ拡張に依存しています。
GAN(Generative Adversarial Networks)やLLM(Large Language Models)を利用した表型データ生成の現代的手法について検討した。
しかし、GANベースのアプローチは、外部知識の欠如に起因する常識的誤りのサンプルを生成するために文書化されている。
一方, LLM法は, 学習中の識別器からのフィードバックがないため, 合成データと実際のデータ分布の相違を捉える能力に限界がある。
さらに、LLM生成の復号化は、偏差器からの損失のバックプロパゲーションを阻害し、これらの2つのアプローチの統合を複雑化する勾配ブレークポイントを導入している。
この課題を解決するために、我々は近ポリシー最適化(PPO)を用いてGANを適用し、LLMを誘導し、表形式の特徴の確率分布を高めることを提案する。
このアプローチにより、表データの合成において、GANのジェネレータとしてLLMを利用することができる。
実験の結果,PPOは3つの実世界のデータセットにまたがって,人工的に生成されたデータに基づいて学習したモデルの精度を約4倍向上させることがわかった。
関連論文リスト
- Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Masked Language Modeling Becomes Conditional Density Estimation for Tabular Data Synthesis [0.74454067778951]
非パラメトリック条件密度推定を考案し,新しい合成データ生成手法MaCoDEを提案する。
提案モデルでは,再トレーニングを必要とせず,データプライバシレベルの調整を可能にする。
論文 参考訳(メタデータ) (2024-05-31T03:26:42Z) - CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。
従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。
多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - Exploring LLMs as a Source of Targeted Synthetic Textual Data to Minimize High Confidence Misclassifications [9.982616173090264]
本研究では,データ拡張のための大規模言語モデル (LLM) の利用を,分類タスク中に高い信頼度で誤った予測を行うNLPモデルの問題に対する潜在的な解決策として検討する。
緩和のために、人間またはLLMは、高い信頼性の誤分類の自然言語特性を提供し、合成データを生成し、トレーニングセットを拡張するのに使用される。
本研究では,3つの分類課題に対するアプローチを広範囲に評価し,信頼性の高い誤分類の数を減らし,その効果を実証する。
論文 参考訳(メタデータ) (2024-03-26T16:49:25Z) - Refined Direct Preference Optimization with Synthetic Data for
Behavioral Alignment of LLMs [0.0]
本稿では,人手による注釈付きデータを必要としない大規模言語モデル(LLM)の振舞いアライメントを改善する手法であるEmphrefined Direct Preference Optimization (rDPO)を紹介する。
この方法は、教師のLLMによる自己批判を用いて合成データを作成し、その後、一般化されたDPO損失関数を利用して、学生のLLMを消毒する。
損失関数は、合成データの品質を改善するために追加の外部報酬モデルを含むため、合成データセットの潜在的なノイズに対してrDPOは堅牢である。
論文 参考訳(メタデータ) (2024-02-12T19:10:13Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。