論文の概要: TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis
- arxiv url: http://arxiv.org/abs/2505.24672v1
- Date: Fri, 30 May 2025 15:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.015413
- Title: TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis
- Title(参考訳): TRIDENT:3次元分散型レッドチームデータ合成による大規模言語モデルの安全性向上
- Authors: Xiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクを抜粋するが、有害なコンテンツを生成することや悪意のある目的のために悪用されることに弱いままである。
本稿では,3つの重要な領域(語彙多様性,悪意障害,ジェイルブレイク戦術)にまたがるアライメントデータセットのリスクカバレッジを測定するための新しい分析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.2545408706656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel in various natural language processing tasks but remain vulnerable to generating harmful content or being exploited for malicious purposes. Although safety alignment datasets have been introduced to mitigate such risks through supervised fine-tuning (SFT), these datasets often lack comprehensive risk coverage. Most existing datasets focus primarily on lexical diversity while neglecting other critical dimensions. To address this limitation, we propose a novel analysis framework to systematically measure the risk coverage of alignment datasets across three essential dimensions: Lexical Diversity, Malicious Intent, and Jailbreak Tactics. We further introduce TRIDENT, an automated pipeline that leverages persona-based, zero-shot LLM generation to produce diverse and comprehensive instructions spanning these dimensions. Each harmful instruction is paired with an ethically aligned response, resulting in two datasets: TRIDENT-Core, comprising 26,311 examples, and TRIDENT-Edge, with 18,773 examples. Fine-tuning Llama 3.1-8B on TRIDENT-Edge demonstrates substantial improvements, achieving an average 14.29% reduction in Harm Score, and a 20% decrease in Attack Success Rate compared to the best-performing baseline model fine-tuned on the WildBreak dataset.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクを抜粋するが、有害なコンテンツを生成することや悪意のある目的のために悪用されることに弱いままである。
安全アライメントデータセットは、教師付き微調整(SFT)によってそのようなリスクを軽減するために導入されているが、これらのデータセットは包括的なリスクカバレッジを欠いていることが多い。
既存のデータセットのほとんどは、他の重要な次元を無視しながら、主に語彙の多様性に焦点を当てている。
この制限に対処するため,本研究では,レキシカル・ダイバーシティ,悪意的インテント,ジェイルブレイク・タクティクスという3つの重要な領域にまたがるアライメントデータセットのリスクカバレッジを体系的に測定する,新たな分析フレームワークを提案する。
TRIDENTは、パーソナベースのゼロショットLCM生成を利用して、これらの次元にまたがる多種多様な包括的命令を生成する自動パイプラインである。
その結果、26,311の例からなるTRIDENT-Coreと18,773の例からなるTRIDENT-Edgeという2つのデータセットが作られた。
TRIDENT-Edge上の微調整のLlama 3.1-8Bは大幅に改善され、平均14.29%のHarmスコアが減少し、WildBreakデータセットで微調整された最高のベースラインモデルと比較してアタック成功率が20%低下した。
関連論文リスト
- OBLIVIATE: Robust and Practical Machine Unlearning for Large Language Models [12.848214683467297]
大規模言語モデル(LLM)は、機密性、著作権、有害なコンテンツを記憶する広範囲なコーパスリスクを訓練した。
モデルユーティリティを保ちながらターゲットデータを削除する頑健なアンラーニングフレームワークOBLIVIATEを提案する。
我々はHarry Potterシリーズ、WMDP、TOFUを含む複数のデータセットで実験を行う。
論文 参考訳(メタデータ) (2025-05-07T13:51:42Z) - CyberLLMInstruct: A New Dataset for Analysing Safety of Fine-Tuned LLMs Using Cyber Security Data [2.2530496464901106]
大規模言語モデルのサイバーセキュリティアプリケーションへの統合は、大きなチャンスをもたらす。
CyberLLMInstructは、サイバーセキュリティタスクにまたがる54,928の命令応答ペアのデータセットである。
微調整モデルは、CyberMetricベンチマークで最大92.50%の精度を達成することができる。
論文 参考訳(メタデータ) (2025-03-12T12:29:27Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning [1.3307486544794784]
レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。
本稿では,要約,コード生成,翻訳,分類などの下流タスクの微調整によるタスクの安全性の低下について検討する。
我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-18T08:04:24Z) - SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming [0.0]
我々は合成アライメントとリピートデータを生成する新しいパイプラインであるSAGEを紹介する。
SAGEは詳細な分類を使用して、幅広いトピックにわたる安全アライメントと再チームのデータを生成する。
Sagejailbreakによって生成されたリピートデータは,32のサブカテゴリ中27以上,279のリーフカテゴリ中58以上において,最先端のLDMを突破する。
論文 参考訳(メタデータ) (2024-08-14T08:38:31Z) - Exploring RAG-based Vulnerability Augmentation with LLMs [19.45598962972431]
VulScribeRは、慎重にキュレートされたプロンプトテンプレートを利用して脆弱なデータセットを拡張する新しいソリューションである。
我々のアプローチでは、VulgenとVGXの2つのSOTAメソッドを破り、Random Oversampling(ROS)を27.48%、27.93%、f1スコアで15.41%、平均5Kで弱いサンプルを生成した。
論文 参考訳(メタデータ) (2024-08-07T23:22:58Z) - Do as I do (Safely): Mitigating Task-Specific Fine-tuning Risks in Large Language Models [93.08860674071636]
悪質なアクターが、ほぼすべてのタスク固有のデータセットの構造を微妙に操作して、危険なモデル行動を促進する方法を示す。
本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-06-12T18:33:11Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。