Fugu-MT 論文翻訳(概要): SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming

論文の概要: SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming

arxiv url: http://arxiv.org/abs/2408.11851v1
Date: Wed, 14 Aug 2024 08:38:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-25 13:51:32.183164
Title: SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming
Title（参考訳）: SAGE-RT:安全評価とレッドチームのための合成アライメントデータ生成
Authors: Anurakt Kumar, Divyanshu Kumar, Jatan Loya, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi,
Abstract要約: 我々は合成アライメントとリピートデータを生成する新しいパイプラインであるSAGEを紹介する。 SAGEは詳細な分類を使用して、幅広いトピックにわたる安全アライメントと再チームのデータを生成する。 Sagejailbreakによって生成されたリピートデータは,32のサブカテゴリ中27以上,279のリーフカテゴリ中58以上において,最先端のLDMを突破する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce Synthetic Alignment data Generation for Safety Evaluation and Red Teaming (SAGE-RT or SAGE) a novel pipeline for generating synthetic alignment and red-teaming data. Existing methods fall short in creating nuanced and diverse datasets, providing necessary control over the data generation and validation processes, or require large amount of manually generated seed data. SAGE addresses these limitations by using a detailed taxonomy to produce safety-alignment and red-teaming data across a wide range of topics. We generated 51,000 diverse and in-depth prompt-response pairs, encompassing over 1,500 topics of harmfulness and covering variations of the most frequent types of jailbreaking prompts faced by large language models (LLMs). We show that the red-teaming data generated through SAGE jailbreaks state-of-the-art LLMs in more than 27 out of 32 sub-categories, and in more than 58 out of 279 leaf-categories (sub-sub categories). The attack success rate for GPT-4o, GPT-3.5-turbo is 100% over the sub-categories of harmfulness. Our approach avoids the pitfalls of synthetic safety-training data generation such as mode collapse and lack of nuance in the generation pipeline by ensuring a detailed coverage of harmful topics using iterative expansion of the topics and conditioning the outputs on the generated raw-text. This method can be used to generate red-teaming and alignment data for LLM Safety completely synthetically to make LLMs safer or for red-teaming the models over a diverse range of topics.
Abstract（参考訳）: SAGE-RT (SAGE-RT or SAGE) は, 合成アライメントとリピートデータを生成するための新しいパイプラインである。既存のメソッドは、ニュアンスで多様なデータセットの作成に不足し、データ生成と検証プロセスの必要なコントロールを提供するか、あるいは大量の手動で生成されたシードデータを必要とする。 SAGEはこれらの制限に対処し、詳細な分類を使用して、幅広いトピックにわたる安全アライメントと再チームのデータを生成する。有害性のトピックを1,500以上含み,大規模言語モデル(LLM)が直面する最も頻繁なタイプのジェイルブレイクプロンプトのバリエーションを網羅した,多種多様かつ詳細なプロンプト応答ペア51,000を作成した。 SAGEjailbreakによって生成されたリピートデータは,32のサブカテゴリのうち27以上,279のリーフカテゴリ(サブカテゴリ)のうち58以上において,最先端のLDMを突破する。 GPT-4o, GPT-3.5-turboの攻撃成功率は, 有害性のサブカテゴリに対して100%であった。提案手法は,モデム崩壊やニュアンス欠如などの合成安全訓練データ生成の落とし穴を回避し,トピックの反復的拡張による有害トピックの詳細なカバレッジを確保し,生成した生テキストに出力を条件付ける。この方法は、LLMセーフティのためのレッドチームデータとアライメントデータを生成するために使用することができ、LLMをより安全なものにしたり、様々なトピックでモデルのレッドチーム化に利用することができる。

関連論文リスト

TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis [35.2545408706656]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを抜粋するが、有害なコンテンツを生成することや悪意のある目的のために悪用されることに弱いままである。本稿では,3つの重要な領域(語彙多様性,悪意障害,ジェイルブレイク戦術)にまたがるアライメントデータセットのリスクカバレッジを測定するための新しい分析フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-30T15:02:21Z)
Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文参考訳（メタデータ） (2025-03-18T08:34:03Z)
Technical Report: Generating the WEB-IDS23 Dataset [1.1101390076342181]
いくつかの広く使われているデータセットは、十分にきめ細かいラベルを含まない。モジュラートラフィックジェネレータは様々な良質で悪意のあるトラフィックをシミュレートできますデータセットは、82のフローレベルの特徴と21のきめ細かいラベルを持つ1200万以上のサンプルをキャプチャする。
論文参考訳（メタデータ） (2025-02-06T09:33:02Z)
Aegis2.0: A Diverse AI Safety Dataset and Risks Taxonomy for Alignment of LLM Guardrails [4.697160328460634]
大規模言語モデル(LLM)と生成AIが普及している。 LLM関連の安全リスクの完全なスペクトルに対処する、高品質で人間による注釈付きデータセットの欠如は明らかです。安全リスクを分類するための包括的かつ適応可能な分類法を提案する。
論文参考訳（メタデータ） (2025-01-15T18:37:08Z)
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection [0.0]
大規模言語モデルは、ユーザーがこれらのモデルに意図した範囲を超えてタスクを実行するよう促すような、オフトピー的な誤用をしがちである。現行のガードレールは、高い偽陽性率、限られた適応性、およびプレプロダクションでは利用できない実世界のデータを必要とする非現実性に悩まされている。本稿では,これらの課題に対処するフレキシブルでデータフリーなガードレール開発手法を提案する。
論文参考訳（メタデータ） (2024-11-20T00:31:23Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文参考訳（メタデータ） (2024-10-08T17:02:40Z)
LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。 LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文参考訳（メタデータ） (2024-09-30T03:59:06Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference [9.883296844539839]
PKU-SafeRLHFデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計された。全体として、44.6kの精巧なプロンプトと265kの質問応答ペアに、安全メタラベルを19の有害カテゴリーと3つの重度レベルを付与する。
論文参考訳（メタデータ） (2024-06-20T18:37:36Z)
Why LLMs Are Bad at Synthetic Table Generation (and what to do about it) [11.266896863556124]
合成データ生成は、トレーニングデータを増強したり、機密情報を置き換えたり、DeepSeekのような先進的なプラットフォームに電力を供給するなど、MLパイプラインに不可欠なものだ。合成データ生成のための微調整 LLM が普及している一方で、合成表生成はテキストや画像合成と比較して未探索のままである。本稿では, 従来の微調整に用いたとしても, LLMが合成表の生成に不適であることを示す。
論文参考訳（メタデータ） (2024-06-20T17:52:29Z)
Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems [22.142588104314175]
Retrieval-In-Context RAG Language Models (LMs) におけるデータストアリークのリスクについて検討する。敵はLMの命令追従機能を利用してデータストアからテキストデータを簡単に抽出できることを示す。ランダムに選択された25個のGPTに対して、100%の成功率でデータストアリークを引き起こす攻撃を設計する。
論文参考訳（メタデータ） (2024-02-27T19:08:05Z)
Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文参考訳（メタデータ） (2024-02-21T02:45:46Z)
AART: AI-Assisted Red-Teaming with Diverse Data Generation for New LLM-powered Applications [5.465142671132731]
大規模言語モデル(LLM)のアドバイザリテストは、安全で責任のあるデプロイメントに不可欠である。本稿では,新しい下流アプリケーション上でのLCM生成の安全性をテストするために,逆評価データセットの自動生成のための新しいアプローチを提案する。 AI支援のレッドチーム(AART)と呼ばれています。
論文参考訳（メタデータ） (2023-11-14T23:28:23Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。