論文の概要: Reverse Constitutional AI: A Framework for Controllable Toxic Data Generation via Probability-Clamped RLAIF
- arxiv url: http://arxiv.org/abs/2604.17769v1
- Date: Mon, 20 Apr 2026 03:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.679761
- Title: Reverse Constitutional AI: A Framework for Controllable Toxic Data Generation via Probability-Clamped RLAIF
- Title(参考訳): 逆構成AI:確率クランプRLAIFによる制御可能な毒性データ生成のためのフレームワーク
- Authors: Yuan Fang, Yiming Luo, Aimin Zhou, Fei Tan,
- Abstract要約: 本稿では,逆構成型AI(Reverse Constitutional AI, R-CAI)を提案する。
R-CAIは、人間のアノテーションを使わずに、多次元の敵対データのスケーラブルな合成を可能にする。
実験により、R-CAIは多種多様な高品質な有毒なデータを生成し、確率クランプは意味的コヒーレンスを大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 32.86412704734794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the safety of large language models (LLMs) requires robust red teaming, yet the systematic synthesis of high-quality toxic data remains under-explored. We propose Reverse Constitutional AI (R-CAI), a framework for automated and controllable adversarial data generation that moves beyond isolated jailbreak prompts. By inverting a harmless constitution into a constitution of toxicity and iteratively refining model outputs through a critique--revision pipeline, R-CAI enables scalable synthesis of multi-dimensional adversarial data without human annotation. Optimizing solely for toxicity-related rewards, however, can lead to reward hacking and degraded semantic coherence. To address this challenge, we introduce probability clamping within reinforcement learning from AI feedback, which stabilizes adversarial optimization while preserving adversarial intent. Experiments demonstrate that R-CAI generates diverse, high-quality toxic data and that probability clamping substantially improves semantic coherence (15%) without sacrificing adversarial strength. Overall, R-CAI provides a fully automated framework for red teaming data generation and systematic safety evaluation of aligned language models.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性を確保するには、ロバストなレッド・チームリングが必要であるが、高品質な有毒なデータの体系的な合成は未探索のままである。
脱獄プロンプトを超越した自動かつ制御可能な敵データ生成のためのフレームワークであるReverse Constitutional AI(R-CAI)を提案する。
R-CAIは、無害な構成を有毒な構成に逆転させ、批判-修正パイプラインを介して反復的にモデル出力を精製することにより、人間のアノテーションを使わずに多次元の敵対データのスケーラブルな合成を可能にする。
しかし、毒性関連報酬のみを最適化することは、報酬のハッキングと劣化したセマンティックコヒーレンスにつながる可能性がある。
この課題に対処するために、AIフィードバックから強化学習に確率クランプを導入し、敵の意図を維持しながら敵の最適化を安定化する。
実験により、R-CAIは多様な高品質な有毒なデータを生成し、確率クランプは敵の強度を犠牲にすることなく、意味的コヒーレンス(15%)を大幅に改善することが示された。
全体として、R-CAIは、データ生成と整列した言語モデルの体系的な安全性を評価するために、完全に自動化されたフレームワークを提供する。
関連論文リスト
- FedRio: Personalized Federated Social Bot Detection via Cooperative Reinforced Contrastive Adversarial Distillation [52.56850762009136]
ソーシャルボットの検出は、オンラインソーシャルプラットフォームの安定性とセキュリティに不可欠である。
現在の最先端のボット検出モデルは、主に独立して開発されている。
クロスプラットフォームおよびクロスモデル検出フレームワークとしてFedRioを提案する。
論文 参考訳(メタデータ) (2026-04-12T15:13:41Z) - DISCO-TAB: A Hierarchical Reinforcement Learning Framework for Privacy-Preserving Synthesis of Complex Clinical Data [2.3915781021862332]
DISCO-TABは、Reinforcement Learningによって最適化された多目的識別器システムを用いて、微調整LDMをオーケストレーションする新しいフレームワークである。
私たちは、高次元の小さな医療データセットを含むさまざまなベンチマークで、私たちのフレームワークを厳格に検証しています。
以上の結果から, 階層的フィードバックは最先端の成果をもたらすことが示され, 下流の臨床的有用性は最大38.2%向上した。
論文 参考訳(メタデータ) (2026-04-01T23:37:58Z) - ThreatFormer-IDS: Robust Transformer Intrusion Detection with Zero-Day Generalization and Explainable Attribution [0.0]
IoTおよび産業ネットワークの侵入検出には、進化するトラフィックと限定されたラベルの下で信頼性を維持しながら、低い偽陽性率で稀な攻撃を検出できるモデルが必要である。
本研究では,トランスフォーマーをベースとしたシーケンシャルモデリングフレームワークThreatFormer-IDSを提案する。
時系列評価を備えたToN IoTベンチマークでは、ThreatFormer-IDSがAUCROC 0.994、AUC-PR 0.956、Recall@1%FPR 0.910を達成した。
論文 参考訳(メタデータ) (2026-02-26T23:20:42Z) - Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection [30.77558600436759]
ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
論文 参考訳(メタデータ) (2025-08-05T15:07:32Z) - Autonomous Cyber Resilience via a Co-Evolutionary Arms Race within a Fortified Digital Twin Sandbox [0.0]
本稿では「信頼の傾向」に対処するARC(Adversarial Resilience Co-evolution)フレームワークを紹介する。
ARCは、Fortified Secure Digital Twin内での共同進化型武器レースを開催する。
包括的なアブレーション調査は、共進化プロセス自体が27%のパフォーマンス改善に寄与していることを示している。
論文 参考訳(メタデータ) (2025-06-25T03:28:48Z) - Theoretical Insights in Model Inversion Robustness and Conditional Entropy Maximization for Collaborative Inference Systems [89.35169042718739]
協調推論により、クラウドサーバに機密データを公開することなく、エンドユーザは強力なディープラーニングモデルを活用することができる。
近年の研究では、これらの中間機能は、情報が漏洩し、生データをモデル反転攻撃(MIA)によって再構築できるため、プライバシーを十分に保持できないことが判明している。
この研究はまず、与えられた中間特徴の入力の条件エントロピーが、任意のMIAの下での再構成平均二乗誤差(MSE)の保証された下界を与えることを理論的に証明する。
そして、ガウス混合推定に基づいて、この条件付きエントロピーを有界化するための微分可能かつ可解な尺度を導出し、逆ロバスト性を高める条件付きエントロピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T07:15:21Z) - CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI知識抽出法は柔軟性と一般化性に欠ける。
我々は,データ効率の高いCTI知識抽出と高品質サイバーセキュリティ知識グラフ(CSKG)構築のための新しいフレームワークであるCTINexusを提案する。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるために,新しい記号回帰手法を提案する。
我々の研究は、データ固有の式生成器の学習に焦点を当てた、一般的なDSRフレームワークと一致しています。
論文 参考訳(メタデータ) (2024-06-10T19:29:10Z) - Joint Sensing, Communication, and AI: A Trifecta for Resilient THz User
Experiences [118.91584633024907]
テラヘルツ(THz)無線システムに対する拡張現実(XR)体験を最適化するために、新しい共同センシング、通信、人工知能(AI)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-29T00:39:50Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。