Fugu-MT 論文翻訳(概要): P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models

論文の概要: P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models

arxiv url: http://arxiv.org/abs/2406.11391v1
Date: Mon, 17 Jun 2024 10:22:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 15:21:39.042033
Title: P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models
Title（参考訳）: P-TA:大規模言語モデルによる語彙データ拡張を支援するための近似ポリシー最適化
Authors: Shuo Yang, Chenchen Yuan, Yao Rong, Felix Steinbauer, Gjergji Kasneci,
Abstract要約: 我々は、GAN(Generative Adversarial Networks)を適用するために、PPO(Maximal Policy Optimization)を提案する。 PPOは、最先端のデータセットに対して合成生成されたデータに基づいてトレーニングされたモデルの精度を約4%向上させる。
参考スコア（独自算出の注目度）: 15.969452637480167
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: A multitude of industries depend on accurate and reasonable tabular data augmentation for their business processes. Contemporary methodologies in generating tabular data revolve around utilizing Generative Adversarial Networks (GAN) or fine-tuning Large Language Models (LLM). However, GAN-based approaches are documented to produce samples with common-sense errors attributed to the absence of external knowledge. On the other hand, LLM-based methods exhibit a limited capacity to capture the disparities between synthesized and actual data distribution due to the absence of feedback from a discriminator during training. Furthermore, the decoding of LLM-based generation introduces gradient breakpoints, impeding the backpropagation of loss from a discriminator, thereby complicating the integration of these two approaches. To solve this challenge, we propose using proximal policy optimization (PPO) to apply GANs, guiding LLMs to enhance the probability distribution of tabular features. This approach enables the utilization of LLMs as generators for GANs in synthesizing tabular data. Our experiments demonstrate that PPO leads to an approximately 4\% improvement in the accuracy of models trained on synthetically generated data over state-of-the-art across three real-world datasets.
Abstract（参考訳）: 多くの業界は、彼らのビジネスプロセスに対して正確で合理的な表形式のデータ拡張に依存しています。 GAN(Generative Adversarial Networks)やLLM(Large Language Models)を利用した表型データ生成の現代的手法について検討した。しかし、GANベースのアプローチは、外部知識の欠如に起因する常識的誤りのサンプルを生成するために文書化されている。一方, LLM法は, 学習中の識別器からのフィードバックがないため, 合成データと実際のデータ分布の相違を捉える能力に限界がある。さらに、LLM生成の復号化は、偏差器からの損失のバックプロパゲーションを阻害し、これらの2つのアプローチの統合を複雑化する勾配ブレークポイントを導入している。この課題を解決するために、我々は近ポリシー最適化(PPO)を用いてGANを適用し、LLMを誘導し、表形式の特徴の確率分布を高めることを提案する。このアプローチにより、表データの合成において、GANのジェネレータとしてLLMを利用することができる。実験の結果,PPOは3つの実世界のデータセットにまたがって,人工的に生成されたデータに基づいて学習したモデルの精度を約4倍向上させることがわかった。

関連論文リスト

Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [54.654823811482665]
大規模言語モデル (LLM) は、人間の値に対して出力を制御するための優先順位付け手法にますます依存している。近年のアプローチは、スケーラブルな代替手段としてLLMによって生成された合成データに転換されている。そこで我々は,そのようなシフトが存在する場合の優先調整を改善する新しい分散対応最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-08T09:14:38Z)
Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [36.277423093218275]
大規模言語モデル(LLM)の全体的な能力向上におけるデータ多様性の役割について検討する。本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文参考訳（メタデータ） (2025-02-05T17:21:01Z)
SampleLLM: Optimizing Tabular Data Synthesis in Recommendations [46.689486044254544]
タブラルデータ合成は機械学習において重要であるが、既存の一般的な手法は非常にデータに依存しており、レコメンデータシステムでは不足することが多い。この制限は、複雑な分布を捉え、スパースデータと限定データから特徴関係を理解するのが困難であることから生じる。そこで本研究では,LLMに基づくデータ合成の品質向上を目的とした,SampleLLMという2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-27T15:12:27Z)
Large Language Models for Market Research: A Data-augmentation Approach [3.3199591445531453]
大規模言語モデル(LLM)は、複雑な自然言語処理タスクに優れ、人工知能を変革した。近年の研究では、LLMが生成するデータと人間のデータの間に大きなギャップが見られ、両者を置換する際にバイアスが発生している。コンジョイント解析において,LLM生成データと実データとを効率的に統合する新しい統計データ拡張手法を提案する。
論文参考訳（メタデータ） (2024-12-26T22:06:29Z)
Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文参考訳（メタデータ） (2024-10-28T20:53:49Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文参考訳（メタデータ） (2024-05-28T00:08:29Z)
Refined Direct Preference Optimization with Synthetic Data for Behavioral Alignment of LLMs [0.0]
本稿では,人手による注釈付きデータを必要としない大規模言語モデル(LLM)の振舞いアライメントを改善する手法であるEmphrefined Direct Preference Optimization (rDPO)を紹介する。この方法は、教師のLLMによる自己批判を用いて合成データを作成し、その後、一般化されたDPO損失関数を利用して、学生のLLMを消毒する。損失関数は、合成データの品質を改善するために追加の外部報酬モデルを含むため、合成データセットの潜在的なノイズに対してrDPOは堅牢である。
論文参考訳（メタデータ） (2024-02-12T19:10:13Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文参考訳（メタデータ） (2023-03-02T21:13:56Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。