論文の概要: Evaluating LLM Simulators as Differentially Private Data Generators
- arxiv url: http://arxiv.org/abs/2604.15461v1
- Date: Thu, 16 Apr 2026 18:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.62157
- Title: Evaluating LLM Simulators as Differentially Private Data Generators
- Title(参考訳): 微分プライベートデータジェネレータとしてのLLMシミュレータの評価
- Authors: Nassima M. Bouzid, Dehao Yuan, Nam H. Nguyen, Mayana Pereira,
- Abstract要約: 我々はPersonaLedgerが有望な不正検出ユーティリティ(AUC 0.70 at epsilon=1)を実現することを発見した。
これらの障害モードは、LCMベースのメソッドがよりリッチなユーザ表現を扱えるようになる前に対処する必要がある。
- 参考スコア(独自算出の注目度): 5.49333823837533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based simulators offer a promising path for generating complex synthetic data where traditional differentially private (DP) methods struggle with high-dimensional user profiles. But can LLMs faithfully reproduce statistical distributions from DP-protected inputs? We evaluate this using PersonaLedger, an agentic financial simulator, seeded with DP synthetic personas derived from real user statistics. We find that PersonaLedger achieves promising fraud detection utility (AUC 0.70 at epsilon=1) but exhibits significant distribution drift due to systematic LLM biases--learned priors overriding input statistics for temporal and demographic features. These failure modes must be addressed before LLM-based methods can handle the richer user representations where they might otherwise excel.
- Abstract(参考訳): LLMベースのシミュレータは、従来の微分プライベート(DP)メソッドが高次元ユーザプロファイルと競合する複雑な合成データを生成するための有望な経路を提供する。
しかし、LDMはDP保護入力から統計的分布を忠実に再現できるのか?
我々は,エージェントファイナンシャルシミュレータである PersonaLedger を用いて,実際のユーザ統計から DP 合成ペルソナをシードとして評価した。
我々はPersonaLedgerが有望な不正検出ユーティリティ(AUC 0.70 at epsilon=1)を実現することを発見した。
これらの障害モードは、LCMベースのメソッドがよりリッチなユーザ表現を扱えるようになる前に対処する必要がある。
関連論文リスト
- Mind the Sim2Real Gap in User Simulation for Agentic Tasks [101.69142591891234]
ユーザシミュレーションにおけるSim2Realのギャップを形式化し、実際の人間に対して$$$-benchプロトコルを実行する最初の研究を示す。
LLMシミュレータは過度に協調的であり、スタイリスティックに均一であり、現実的なフラストレーションや曖昧さを欠いている。
これらの知見は, LLMベースのユーザシミュレータをエージェント開発サイクルで使用する際の人間による検証の重要性を強調した。
論文 参考訳(メタデータ) (2026-03-11T19:12:31Z) - DP-RFT: Learning to Generate Synthetic Text via Differentially Private Reinforcement Fine-Tuning [51.35628297101575]
差分的プライベート(DP)合成データ生成は,個人データ上での大規模言語モデル(LLM)の開発において重要な役割を担っている。
LLMを用いた合成データ生成のためのオンライン強化学習アルゴリズムDP-RFTを導入する。
DP-RFTは,ニュース記事や会議録,医療記事の要約など,長文およびドメイン固有の合成データ生成に有用である。
論文 参考訳(メタデータ) (2026-02-20T22:03:56Z) - What Language Models Know But Don't Say: Non-Generative Prior Extraction for Generalization [5.663538370244175]
ベイジアンロジスティック回帰のための情報的事前分布を抽出する決定論的手法であるLoIDを提案する。
生成したテキストに頼るのではなく、注意深く構築された文を通して、モデルが対立する意味的方向に対する自信を探索する。
合成アウトオブディストリビューション(OOD)設定下で10個の実世界のデータセット上でLoIDを評価する。
論文 参考訳(メタデータ) (2026-01-24T22:05:01Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Large Language Models for Market Research: A Data-augmentation Approach [3.3199591445531453]
大規模言語モデル(LLM)は、複雑な自然言語処理タスクに優れ、人工知能を変革した。
近年の研究では、LLMが生成するデータと人間のデータの間に大きなギャップが見られ、両者を置換する際にバイアスが発生している。
コンジョイント解析において,LLM生成データと実データとを効率的に統合する新しい統計データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T22:06:29Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。