論文の概要: ToxiGAN: Toxic Data Augmentation via LLM-Guided Directional Adversarial Generation
- arxiv url: http://arxiv.org/abs/2601.03121v1
- Date: Tue, 06 Jan 2026 15:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.001643
- Title: ToxiGAN: Toxic Data Augmentation via LLM-Guided Directional Adversarial Generation
- Title(参考訳): ToxiGAN: LLM-Guided Directional Adversarial Generationによる毒性データ拡張
- Authors: Peiran Li, Jan Fillies, Adrian Paschke,
- Abstract要約: ToxiGANは、対数生成と大言語モデル(LLM)のセマンティックガイダンスを組み合わせた、クラス対応テキスト拡張フレームワークである。
ToxiGANは、マクロF1とヘイトF1の両方において最も高い平均性能を達成し、従来型およびLLMベースの拡張手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 2.982975056815848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmenting toxic language data in a controllable and class-specific manner is crucial for improving robustness in toxicity classification, yet remains challenging due to limited supervision and distributional skew. We propose ToxiGAN, a class-aware text augmentation framework that combines adversarial generation with semantic guidance from large language models (LLMs). To address common issues in GAN-based augmentation such as mode collapse and semantic drift, ToxiGAN introduces a two-step directional training strategy and leverages LLM-generated neutral texts as semantic ballast. Unlike prior work that treats LLMs as static generators, our approach dynamically selects neutral exemplars to provide balanced guidance. Toxic samples are explicitly optimized to diverge from these exemplars, reinforcing class-specific contrastive signals. Experiments on four hate speech benchmarks show that ToxiGAN achieves the strongest average performance in both macro-F1 and hate-F1, consistently outperforming traditional and LLM-based augmentation methods. Ablation and sensitivity analyses further confirm the benefits of semantic ballast and directional training in enhancing classifier robustness.
- Abstract(参考訳): 毒性分類における堅牢性を向上するためには, 制御可能なクラス固有の方法で有害言語データを増大させることが重要であるが, 限られた監督と分布性スキューのため, 依然として困難である。
本稿では,大規模言語モデル (LLM) からのセマンティックガイダンスと敵対生成を組み合わせたクラス対応テキスト拡張フレームワークであるToxiGANを提案する。
モード崩壊やセマンティックドリフトといったGANベースの拡張の一般的な問題に対処するため、ToxiGANは2段階の方向性トレーニング戦略を導入し、LLM生成した中立テキストをセマンティックバラストとして活用する。
LLMを静的なジェネレータとして扱う以前の作業とは異なり、我々のアプローチは動的に中立な例を選択してバランスの取れたガイダンスを提供する。
毒性サンプルはこれらの例から分岐するように明示的に最適化され、クラス固有のコントラスト信号が強化される。
4つのヘイトスピーチベンチマークの実験により、ToxiGANはマクロF1とヘイトF1の両方において最も高い平均性能を達成し、従来型およびLLMベースの拡張手法を一貫して上回っていることが示された。
アブレーションと感度分析はセマンティックバラストの利点と、分類器の堅牢性を高めるための方向性訓練をさらに確認する。
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T13:50:36Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。