論文の概要: In-Context Bias Propagation in LLM-Based Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2506.09630v1
- Date: Wed, 11 Jun 2025 11:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.895202
- Title: In-Context Bias Propagation in LLM-Based Tabular Data Generation
- Title(参考訳): LLMに基づく語彙データ生成における文脈バイアス伝播
- Authors: Pol G. Recasens, Alberto Gutierrez, Jordi Torres, Josep. Ll Berral, Anisa Halimi, Kieran Fraser,
- Abstract要約: 文脈内バイアスが緩やかであっても、大域的な統計的歪みにつながることを示す。
悪意のあるコントリビュータが、合成データセットにバイアスを注入する逆シナリオを導入する。
以上の結果から,LSMに基づくデータ生成パイプラインに関連する新たな脆弱性が示唆された。
- 参考スコア(独自算出の注目度): 2.182762698614784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used for synthetic tabular data generation through in-context learning (ICL), offering a practical solution for data augmentation in data scarce scenarios. While prior work has shown the potential of LLMs to improve downstream task performance through augmenting underrepresented groups, these benefits often assume access to a subset of unbiased in-context examples, representative of the real dataset. In real-world settings, however, data is frequently noisy and demographically skewed. In this paper, we systematically study how statistical biases within in-context examples propagate to the distribution of synthetic tabular data, showing that even mild in-context biases lead to global statistical distortions. We further introduce an adversarial scenario where a malicious contributor can inject bias into the synthetic dataset via a subset of in-context examples, ultimately compromising the fairness of downstream classifiers for a targeted and protected subgroup. Our findings demonstrate a new vulnerability associated with LLM-based data generation pipelines that rely on in-context prompts with in sensitive domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて合成表データ生成にますます使われ、データ不足のシナリオでデータ拡張のための実用的なソリューションを提供する。
以前の研究では、未表現のグループを拡大することで、下流タスクのパフォーマンスを改善するLLMの可能性を示してきたが、これらの利点は、実際のデータセットを表す、曖昧でないインコンテキストのサンプルのサブセットへのアクセスを前提としていることが多い。
しかし、現実の環境では、データは頻繁に騒々しく、人口統計学的に歪められている。
本稿では,テキスト内サンプル中の統計的バイアスが合成表データの分布にどのように伝播するかを系統的に検討し,軽度なテキスト内バイアスでさえ,大域的な統計的歪みをもたらすことを示す。
さらに、悪意のあるコントリビュータが、コンテキスト内サンプルのサブセットを通じて、合成データセットにバイアスを注入し、最終的には、ターゲットと保護されたサブグループに対する下流分類器の公平性を妥協する逆シナリオを導入する。
この結果から,LLMベースのデータ生成パイプラインに関連付けられた新たな脆弱性が示唆された。
関連論文リスト
- Large Language Models for Data Synthesis [17.333852085464176]
大規模言語モデル(LLM)は、現実の分布よりも柔軟で高次元の先行性を持つ。
LLM Synthorは、LLMを分布フィードバックによって誘導される構造対応シミュレータに変換するデータ合成のためのフレームワークである。
要約統計空間における相違を最小化することにより、反復合成ループは実データと合成データを整列させる。
論文 参考訳(メタデータ) (2025-05-20T13:35:38Z) - A Note on Statistically Accurate Tabular Data Generation Using Large Language Models [0.0]
この研究は、大規模言語モデルを利用して条件分布を推定する確率駆動的プロンプト手法を導入する。
その結果,大規模言語モデルが生成するデータの統計的忠実度を高めるために,確率分布の促進の可能性を強調した。
論文 参考訳(メタデータ) (2025-05-05T14:05:15Z) - Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models [40.853803921563596]
現在の大規模言語モデル(LLM)は、まだデータセットのバイアスをキャプチャして、推論時に利用することができる。
本稿では,情報ゲイン誘導型因果介入脱バイアスフレームワークを提案する。
ICDはLLMを効果的にデバイアスし、様々なタスクにおける一般化性を向上させる。
論文 参考訳(メタデータ) (2025-04-17T12:39:25Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - SampleLLM: Optimizing Tabular Data Synthesis in Recommendations [46.689486044254544]
タブラルデータ合成は機械学習において重要であるが、既存の一般的な手法は非常にデータに依存しており、レコメンデータシステムでは不足することが多い。
この制限は、複雑な分布を捉え、スパースデータと限定データから特徴関係を理解するのが困難であることから生じる。
そこで本研究では,LLMに基づくデータ合成の品質向上を目的とした,SampleLLMという2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T15:12:27Z) - P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models [15.969452637480167]
我々は、GAN(Generative Adversarial Networks)を適用するために、PPO(Maximal Policy Optimization)を提案する。
PPOは、最先端のデータセットに対して合成生成されたデータに基づいてトレーニングされたモデルの精度を約4%向上させる。
論文 参考訳(メタデータ) (2024-06-17T10:22:00Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime [63.851085173614]
MargCTGANは、非相関な辺縁部の特徴マッチングを追加し、結果として、下流ユーティリティと合成データの統計的性質が一貫した改善をもたらす。
論文 参考訳(メタデータ) (2023-07-16T10:28:49Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。