論文の概要: ACTG-ARL: Differentially Private Conditional Text Generation with RL-Boosted Control
- arxiv url: http://arxiv.org/abs/2510.18232v1
- Date: Tue, 21 Oct 2025 02:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.824078
- Title: ACTG-ARL: Differentially Private Conditional Text Generation with RL-Boosted Control
- Title(参考訳): ACTG-ARL:RLブースト制御による差分私的条件付きテキスト生成
- Authors: Yuzheng Hu, Ryan McKenna, Da Yu, Shanshan Wu, Han Zhao, Zheng Xu, Peter Kairouz,
- Abstract要約: 本稿では,DP合成テキスト生成を特徴学習と条件テキスト生成という2つのサブタスクに分解する階層的フレームワークを提案する。
条件生成のためのACTGの指示追従能力を向上させる後学習法であるAnchored RL(ARL)を提案する。
ARLは、RLとSFTアンカーをベスト・オブ・N$のデータで組み合わせて、報酬のハッキングを防ぐ。
- 参考スコア(独自算出の注目度): 32.134629766747466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-quality synthetic text under differential privacy (DP) is critical for training and evaluating language models without compromising user privacy. Prior work on synthesizing DP datasets often fail to preserve key statistical attributes, suffer utility loss from the noise required by DP, and lack fine-grained control over generation. To address these challenges, we make two contributions. First, we introduce a hierarchical framework that decomposes DP synthetic text generation into two subtasks: feature learning and conditional text generation. This design explicitly incorporates learned features into the generation process and simplifies the end-to-end synthesis task. Through systematic ablations, we identify the most effective configuration: a rich tabular schema as feature, a DP tabular synthesizer, and a DP fine-tuned conditional generator, which we term ACTG (Attribute-Conditioned Text Generation). Second, we propose Anchored RL (ARL), a post-training method that improves the instruction-following ability of ACTG for conditional generation. ARL combines RL to boost control with an SFT anchor on best-of-$N$ data to prevent reward hacking. Together, these components form our end-to-end algorithm ACTG-ARL, which advances both the quality of DP synthetic text (+20% MAUVE over prior work) and the control of the conditional generator under strong privacy guarantees.
- Abstract(参考訳): 差分プライバシ(DP)下での高品質な合成テキストの生成は、ユーザのプライバシを損なうことなく、言語モデルのトレーニングと評価に不可欠である。
DPデータセットを合成する以前の研究は、しばしば重要な統計属性の保存に失敗し、DPが要求するノイズから実用上の損失を被り、生成に対するきめ細かい制御が欠如している。
これらの課題に対処するため、私たちは2つのコントリビューションを行います。
まず,DP合成テキスト生成を特徴学習と条件テキスト生成という2つのサブタスクに分解する階層的フレームワークを提案する。
この設計では、学習した特徴を生成プロセスに明示的に組み込んで、エンドツーエンド合成タスクを単純化する。
体系化により,豊富な表型スキーマを特徴とする機能,DP表型シンセサイザー,およびACTG(Attribute-Conditioned Text Generation)と呼ぶDP微調整条件生成器を同定する。
第2に、条件生成のためのACTGの指示追従能力を改善するポストトレーニング手法であるAnchored RL(ARL)を提案する。
ARLは、RLとSFTアンカーをベスト・オブ・N$のデータで組み合わせて、報酬のハッキングを防ぐ。
これらのコンポーネントは、DP合成テキストの品質(以前の作業よりも20% MAUVE)と、強いプライバシー保証の下で条件付きジェネレータの制御の両方を向上する、エンドツーエンドアルゴリズムACTG-ARLを構成する。
関連論文リスト
- Test-Time Alignment for Large Language Models via Textual Model Predictive Control [63.508812485566374]
Textual Model Predictive Control (TMPC) は、推論時に大規模言語モデルを調整するために適応された新しい予測計画フレームワークである。
TMPCは、談話レベル翻訳、長文応答生成、プログラム合成の3つの異なるセグメンテーション特性を持つタスクで評価される。
その結果、TMPCはパフォーマンスを継続的に改善し、一般性を強調している。
論文 参考訳(メタデータ) (2025-02-28T07:24:33Z) - DP-2Stage: Adapting Language Models as Differentially Private Tabular Data Generators [47.86275136491794]
差分プライベートデータ生成のための2段階微調整フレームワークDP-2Stageを提案する。
実験結果から、このアプローチは様々な設定やメトリクスのパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2024-12-03T14:10:09Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - PCAE: A Framework of Plug-in Conditional Auto-Encoder for Controllable
Text Generation [33.18577107062907]
制御可能なテキスト生成のためのモデル非依存フレームワークPlug-in条件自動エンコーダ(PCAE)を提案する。
我々のフレームワークは"plug-and-play"であり、部分パラメータは事前訓練されたモデル(半分未満)で微調整される。
実験では、高度に操作可能で、構文的に多様性があり、省時間な生成を可能にするPCAEの高機能を明らかにしている。
論文 参考訳(メタデータ) (2022-10-07T12:31:47Z) - FAST: Improving Controllability for Text Generation with Feedback Aware
Self-Training [25.75982440355576]
制御可能なテキスト生成システムは、しばしば制御コードを利用して、スタイルや長さといった出力の様々な特性を指示する。
NLPの因果推論に関する最近の研究に触発された本論文は、これらの制御符号に基づく条件付きテキスト生成アルゴリズムにおいて、これまで見過ごされていた欠陥を明らかにする。
トレーニングセットにおけるこれらの相関を減少させるための2つの簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-10-06T19:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。