論文の概要: In-Context Bias Propagation in LLM-Based Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2506.09630v1
- Date: Wed, 11 Jun 2025 11:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.895202
- Title: In-Context Bias Propagation in LLM-Based Tabular Data Generation
- Title(参考訳): LLMに基づく語彙データ生成における文脈バイアス伝播
- Authors: Pol G. Recasens, Alberto Gutierrez, Jordi Torres, Josep. Ll Berral, Anisa Halimi, Kieran Fraser,
- Abstract要約: 文脈内バイアスが緩やかであっても、大域的な統計的歪みにつながることを示す。
悪意のあるコントリビュータが、合成データセットにバイアスを注入する逆シナリオを導入する。
以上の結果から,LSMに基づくデータ生成パイプラインに関連する新たな脆弱性が示唆された。
- 参考スコア(独自算出の注目度): 2.182762698614784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used for synthetic tabular data generation through in-context learning (ICL), offering a practical solution for data augmentation in data scarce scenarios. While prior work has shown the potential of LLMs to improve downstream task performance through augmenting underrepresented groups, these benefits often assume access to a subset of unbiased in-context examples, representative of the real dataset. In real-world settings, however, data is frequently noisy and demographically skewed. In this paper, we systematically study how statistical biases within in-context examples propagate to the distribution of synthetic tabular data, showing that even mild in-context biases lead to global statistical distortions. We further introduce an adversarial scenario where a malicious contributor can inject bias into the synthetic dataset via a subset of in-context examples, ultimately compromising the fairness of downstream classifiers for a targeted and protected subgroup. Our findings demonstrate a new vulnerability associated with LLM-based data generation pipelines that rely on in-context prompts with in sensitive domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて合成表データ生成にますます使われ、データ不足のシナリオでデータ拡張のための実用的なソリューションを提供する。
以前の研究では、未表現のグループを拡大することで、下流タスクのパフォーマンスを改善するLLMの可能性を示してきたが、これらの利点は、実際のデータセットを表す、曖昧でないインコンテキストのサンプルのサブセットへのアクセスを前提としていることが多い。
しかし、現実の環境では、データは頻繁に騒々しく、人口統計学的に歪められている。
本稿では,テキスト内サンプル中の統計的バイアスが合成表データの分布にどのように伝播するかを系統的に検討し,軽度なテキスト内バイアスでさえ,大域的な統計的歪みをもたらすことを示す。
さらに、悪意のあるコントリビュータが、コンテキスト内サンプルのサブセットを通じて、合成データセットにバイアスを注入し、最終的には、ターゲットと保護されたサブグループに対する下流分類器の公平性を妥協する逆シナリオを導入する。
この結果から,LLMベースのデータ生成パイプラインに関連付けられた新たな脆弱性が示唆された。
関連論文リスト
- LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - SampleLLM: Optimizing Tabular Data Synthesis in Recommendations [46.689486044254544]
タブラルデータ合成は機械学習において重要であるが、既存の一般的な手法は非常にデータに依存しており、レコメンデータシステムでは不足することが多い。
この制限は、複雑な分布を捉え、スパースデータと限定データから特徴関係を理解するのが困難であることから生じる。
そこで本研究では,LLMに基づくデータ合成の品質向上を目的とした,SampleLLMという2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T15:12:27Z) - P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models [15.969452637480167]
我々は、GAN(Generative Adversarial Networks)を適用するために、PPO(Maximal Policy Optimization)を提案する。
PPOは、最先端のデータセットに対して合成生成されたデータに基づいてトレーニングされたモデルの精度を約4%向上させる。
論文 参考訳(メタデータ) (2024-06-17T10:22:00Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。