論文の概要: Lightweight Safety Guardrails via Synthetic Data and RL-guided Adversarial Training
- arxiv url: http://arxiv.org/abs/2507.08284v1
- Date: Fri, 11 Jul 2025 03:17:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.231627
- Title: Lightweight Safety Guardrails via Synthetic Data and RL-guided Adversarial Training
- Title(参考訳): 合成データとRL誘導逆行訓練による軽量安全ガードレール
- Authors: Aleksei Ilin, Gor Matevosyan, Xueying Ma, Vladimir Eremin, Suhaa Dada, Muqun Li, Riyaaz Shaik, Haluk Noyan Tokgozoglu,
- Abstract要約: 小規模の言語モデルは、コンテンツモデレーションタスクにおけるより大きな言語のパフォーマンスを達成し、さらに上回ることができる。
これは高忠実な合成データ生成と逆行訓練によって達成される。
- 参考スコア(独自算出の注目度): 0.1533068702686808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a lightweight yet highly effective safety guardrail framework for language models, demonstrating that small-scale language models can achieve, and even surpass, the performance of larger counterparts in content moderation tasks. This is accomplished through high-fidelity synthetic data generation and adversarial training. The synthetic data generation process begins with human-curated seed data, which undergoes query augmentation and paraphrasing to create diverse and contextually rich examples. This augmented data is then subjected to multiple rounds of curation, ensuring high fidelity and relevance. Inspired by recent advances in the Generative Adversarial Network (GAN) architecture, our adversarial training employs reinforcement learning to guide a generator that produces challenging synthetic examples. These examples are used to fine-tune the safety classifier, enhancing its ability to detect and mitigate harmful content. Additionally, we incorporate strategies from recent research on efficient LLM training, leveraging the capabilities of smaller models to improve the performance of larger generative models. With iterative adversarial training and the generation of diverse, high-quality synthetic data, our framework enables small language models (SLMs) to serve as robust safety guardrails. This approach not only reduces computational overhead but also enhances resilience against adversarial attacks, offering a scalable and efficient solution for content moderation in AI systems.
- Abstract(参考訳): 我々は,軽量かつ高効率な言語モデル安全ガードレールフレームワークを導入し,コンテンツモデレーションタスクにおける大規模言語モデルの性能を達成し,さらに超えることを実証した。
これは高忠実な合成データ生成と逆行訓練によって達成される。
合成データ生成プロセスは、クエリ拡張とパラフレージングを実行し、多種多様で文脈的に豊かな例を生成する、人為的なシードデータから始まる。
この強化されたデータは、複数のキュレーションの対象となり、高い忠実性と関連性を保証する。
GAN(Generative Adversarial Network)アーキテクチャの最近の進歩に触発されて、我々の敵対的トレーニングは強化学習を用いて、挑戦的な合成例を生成するジェネレータを誘導する。
これらの例は、安全分類器を微調整し、有害な内容を検出し、緩和する能力を高めるために使用される。
さらに、我々は、より小さなモデルの性能を活用して、より大規模な生成モデルの性能を向上させる、効率的なLLMトレーニングに関する最近の研究の戦略を取り入れた。
反復的逆行訓練と多種多様な高品質な合成データの生成により、我々のフレームワークは、スモール言語モデル(SLM)を堅牢な安全ガードレールとして機能させることができる。
このアプローチは、計算オーバーヘッドを削減するだけでなく、敵攻撃に対するレジリエンスを高め、AIシステムにおけるコンテンツモデレーションのスケーラブルで効率的なソリューションを提供する。
関連論文リスト
- PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing [7.760708840164335]
本稿では,多種多様な有害データを生成するためにクラウドソーシングモデルを適用したPoisonSwarmを提案する。
それぞれのテンプレートを複数の意味単位に分解し、単位単位のトキフィケーションを実行する。
実験により、PoisonSwarmは有害データの異なるカテゴリを合成することで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-05-27T13:33:57Z) - SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。
提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。
初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-19T17:57:36Z) - Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。
この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-04-20T06:45:16Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Synthetic Network Traffic Data Generation: A Comparative Study [0.0]
既存の合成データ生成法は, 統計的忠実性, 分類タスクの実用性, クラスバランスの維持能力に大きく違いがある。
本研究では、非AI(統計)、古典AI、生成AI技術を含む12種類の合成ネットワークトラフィックデータ生成手法の比較分析を行った。
GANモデル,特にCTGANとCopulaGANは,高品質な合成データ生成に最適であることを示す。
論文 参考訳(メタデータ) (2024-10-18T14:19:25Z) - Enhancing Adversarial Robustness through Multi-Objective Representation Learning [1.534667887016089]
ディープニューラルネットワーク(DNN)は、小さな敵の摂動に対して脆弱である。
トレーニング中のロバストな特徴学習は、ロバスト性を大幅に向上させることができることを示す。
自然的特徴と敵対的特徴を整合させる多目的的手法であるMORELを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:05:03Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。