論文の概要: Self-Reinforcing Controllable Synthesis of Rare Relational Data via Bayesian Calibration
- arxiv url: http://arxiv.org/abs/2604.16817v2
- Date: Sun, 26 Apr 2026 13:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.862504
- Title: Self-Reinforcing Controllable Synthesis of Rare Relational Data via Bayesian Calibration
- Title(参考訳): ベイズ校正によるレアリレーショナルデータの自己強化制御可能な合成
- Authors: Chongsheng Zhang, Hao Wang, Zelong Yu, Esteban Garces Arias, Julian Rodemann, Zhanshuo Zhang, Qilong Li, Gaojuan Fan, Krikamol Muandet, Christian Heumann,
- Abstract要約: 本研究では、データ生成にプログレッシブ・チェーン・オブ・シークレット・ステップを用いる、統合されたコンテキスト内学習フレームワークであるRDDGを提案する。
生成したデータの品質を自動評価する自己強化フィードバック機構が組み込まれている。
複数の実・合成データセットに対する実験結果から、RDDGは、データ忠実度と下流不均衡な分類性能の両方において、既存のアプローチよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 12.065354583341518
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Imbalanced data are commonly present in real-world applications. While data synthesis can effectively mitigate data scarcity for rare classes, and LLMs have revolutionized text generation, the application of LLMs to the synthesis of relational/structured tabular data remains underexplored. Moreover, existing approaches lack an effective feedback mechanism to guide LLMs in continuously optimizing the quality of the generated data throughout the synthesis process. In this work, we propose RDDG, Relational Data generator with Dynamic Guidance, which is a unified in-context learning framework that employs progressive chain-of-thought (CoT) steps to generate tabular data for enhancing downstream imbalanced classification performance. RDDG first uses core set selection to identify representative samples from the original data, then utilizes in-context learning to discover the inherent patterns and correlations among attributes within the core set, and subsequently generates tabular data while preserving the aforementioned constraints. More importantly, it incorporates a self-reinforcing feedback mechanism that provides automatic assessments of the quality of the generated data, enabling continuous quality optimization throughout the generation process. Experimental results on multiple real and synthetic datasets demonstrate that RDDG outperforms existing approaches in both data fidelity and downstream imbalanced classification performance. We make our code available at https://github.com/cszhangLMU/RDDG.
- Abstract(参考訳): 不均衡データは、現実世界のアプリケーションに一般的に存在する。
データ合成は、レアクラスのデータ不足を効果的に軽減し、LLMはテキスト生成に革命をもたらしたが、リレーショナル/構造化された表形式のデータの合成へのLLMの適用は、まだ未定のままである。
さらに、既存のアプローチでは、合成プロセスを通して生成されたデータの品質を継続的に最適化する上で、LLMを誘導する効果的なフィードバックメカニズムが欠如している。
本研究では,動的ガイダンスを用いたRDDG(Relational Data Generator with Dynamic Guidance)を提案する。このフレームワークは,プログレッシブチェーン・オブ・シント(CoT)ステップを用いて,下流の不均衡な分類性能を向上させるための表データを生成する。
RDDGはまず、コアセットの選択を使用して、元のデータから代表サンプルを識別し、その後、コンテキスト内学習を使用して、コアセット内の属性間の固有のパターンと相関を発見し、上記の制約を保ちながら表データを生成する。
さらに重要なのは、生成したデータの品質を自動評価する自己強化フィードバックメカニズムを組み込んで、生成プロセス全体を通じて継続的な品質最適化を可能にすることだ。
複数の実・合成データセットに対する実験結果から、RDDGは、データ忠実度と下流不均衡な分類性能の両方において、既存のアプローチよりも優れていることが示された。
コードはhttps://github.com/cszhangLMU/RDDG.comで公開しています。
関連論文リスト
- Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。
我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。
以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2025-05-06T07:57:16Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Evaluating Language Models as Synthetic Data Generators [99.16334775127875]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - A Correlation- and Mean-Aware Loss Function and Benchmarking Framework to Improve GAN-based Tabular Data Synthesis [2.2451409468083114]
本稿では,GAN(Generative Adversarial Network)のための新しい相関と平均認識損失関数を提案する。
提案した損失関数は、真のデータ分布をキャプチャする既存の手法よりも統計的に有意な改善を示す。
ベンチマークフレームワークは、強化された合成データ品質により、下流の機械学習タスクのパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2024-05-27T09:08:08Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Improving the quality of generative models through Smirnov
transformation [1.3492000366723798]
本稿では,ジェネレータの出力として使用される新しいアクティベーション関数を提案する。
これはスミルノフ確率変換に基づいており、生成されたデータの品質を改善するために特別に設計されている。
論文 参考訳(メタデータ) (2021-10-29T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。