論文の概要: Activation Steering for Synthetic Data Generation: The Role of Diversity in Downstream Safety Detection
- arxiv url: http://arxiv.org/abs/2605.28664v1
- Date: Wed, 27 May 2026 15:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.196173
- Title: Activation Steering for Synthetic Data Generation: The Role of Diversity in Downstream Safety Detection
- Title(参考訳): 合成データ生成のための活性化ステアリング:下流安全検出における多様性の役割
- Authors: Vijeta Deshpande, Tootiya Giyahchi, Veena Padmanabhan, Leman Akoglu, Anna Rumshisky,
- Abstract要約: アクティベーションステアリング(AS)は、ターゲット概念に沿った応答を生成するためのデータ効率の手法として登場した。
本研究は,4ドルの概念にまたがって,本質的・外生的評価を伴う2次元的な研究である。
操舵強度の増大は応答の多様性を低下させる。
- 参考スコア(独自算出の注目度): 18.555524134112755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety detection models require examples of HHH (Helpful, Harmless, Honest)-violating outputs for robust generalization, however such examples are scarce. Activation Steering (AS) has emerged as a data-efficient method for generating target-concept-aligned responses. We investigate whether AS can generate high-quality training datasets for downstream classifiers, a question that remains untested. We present a two-fold study with intrinsic and extrinsic evaluation across $4$ concepts $\times\,2$ models $\times\,4$ steering methods. Intrinsically, beyond the field-standard rubric of steering success (concept alignment) and coherence, we introduce sample- and set-level diversity as a quality axis previously absent from the literature, and find that increasing steering strength reduces response diversity. Extrinsically, we replace HHH-violating examples in the available training data with steered generations and fine-tune detection classifiers. AS-generated data results in a better classifier than the prompting-generated data on $3$ of $4$ concepts. However, only $41$ of $136$ AS configurations outperform prompting, indicating that downstream utility lies in a narrow regime that jointly satisfies success, coherence, and diversity. The harmonic mean of these three axes correlates with downstream AUROC more consistently across concepts than success and coherence alone, providing a practical heuristic target for practitioners tuning AS hyperparameters. Together, our results highlight the potential of AS in synthetic data generation for improving safety detection and identify diversity as a critical, previously overlooked axis for tuning AS.
- Abstract(参考訳): 安全性検出モデルは、堅牢な一般化のためにHHH(Helpful, Harmless, Honest)違反出力の例を必要とするが、そのような例は少ない。
アクティベーションステアリング(AS)は、ターゲット概念に沿った応答を生成するためのデータ効率の手法として登場した。
下流分類器のための高品質なトレーニングデータセットをASが生成できるかどうかについて検討する。
我々は,4$概念$\times\,2$モデル$\times\,4$ステアリング手法の内在的および外在的評価を2次的に行う。
本質的には、ステアリング成功(コンセプションアライメント)とコヒーレンス(コヒーレンス)のフィールド標準ルーブリックを超えて、文献から逸脱した品質軸としてサンプルレベルおよびセットレベルの多様性を導入し、ステアリング強度の増大が応答多様性を減少させることを示した。
極端に、利用可能なトレーニングデータのHHH違反例を、ステアリング世代とファインチューン検出分類器に置き換える。
AS生成データは、$$4$のコンセプトで、プロンプト生成データよりも優れた分類結果をもたらす。
しかし、ダウンストリームのユーティリティが成功、一貫性、多様性を両立する狭い体制にあることを示唆している。
これら3つの軸の調和平均は、成功とコヒーレンスのみという概念よりも、下流のAUROCと一貫して相関しており、超パラメーターをチューニングする実践者にとって実践的なヒューリスティックな目標となっている。
本研究は,ASの安全性を向上する合成データ生成におけるASの可能性を明らかにするとともに,ASをチューニングするための重要な,以前は見過ごされていた軸として多様性を同定するものである。
関連論文リスト
- Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Steering Language Generation: Harnessing Contrastive Expert Guidance and
Negative Prompting for Coherent and Diverse Synthetic Data Generation [0.0]
大規模言語モデル(LLM)は、高品質で実用性の高い合成データを生成する大きな可能性を秘めている。
本稿では,細調整された言語モデルと基本言語モデルのロジット分布の違いを強調する,対照的な専門家指導を紹介する。
STEER: Embedding Repositioningによるセマンティックテキストの強化。
論文 参考訳(メタデータ) (2023-08-15T08:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。