論文の概要: Text-Diffusion Red-Teaming of Large Language Models: Unveiling Harmful Behaviors with Proximity Constraints
- arxiv url: http://arxiv.org/abs/2501.08246v1
- Date: Tue, 14 Jan 2025 16:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:40.135191
- Title: Text-Diffusion Red-Teaming of Large Language Models: Unveiling Harmful Behaviors with Proximity Constraints
- Title(参考訳): 大規模言語モデルのテキスト拡散再結合:確率制約による有害行動の解消
- Authors: Jonathan Nöther, Adish Singla, Goran Radanović,
- Abstract要約: テキスト拡散モデルにインスパイアされたブラックボックスのレッドチーム方式: 監査とレッドチームのための拡散(DART)について紹介する。
DARTは、それを埋め込み空間に摂動させ、導入した変更量を直接制御することで参照プロンプトを変更する。
以上の結果より,DARTは基準プロンプトに近接して有害な入力を発見できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 20.542545906686318
- License:
- Abstract: Recent work has proposed automated red-teaming methods for testing the vulnerabilities of a given target large language model (LLM). These methods use red-teaming LLMs to uncover inputs that induce harmful behavior in a target LLM. In this paper, we study red-teaming strategies that enable a targeted security assessment. We propose an optimization framework for red-teaming with proximity constraints, where the discovered prompts must be similar to reference prompts from a given dataset. This dataset serves as a template for the discovered prompts, anchoring the search for test-cases to specific topics, writing styles, or types of harmful behavior. We show that established auto-regressive model architectures do not perform well in this setting. We therefore introduce a black-box red-teaming method inspired by text-diffusion models: Diffusion for Auditing and Red-Teaming (DART). DART modifies the reference prompt by perturbing it in the embedding space, directly controlling the amount of change introduced. We systematically evaluate our method by comparing its effectiveness with established methods based on model fine-tuning and zero- and few-shot prompting. Our results show that DART is significantly more effective at discovering harmful inputs in close proximity to the reference prompt.
- Abstract(参考訳): 最近の研究は、ある対象とする大規模言語モデル(LLM)の脆弱性をテストするために、自動化されたリピート手法を提案している。
これらの手法は、LLMが標的のLLMに有害な振る舞いを誘発する入力を明らかにするために、LLMをリピートする。
本稿では,対象とするセキュリティアセスメントを可能にするリピート戦略について検討する。
そこで,提案手法は,与えられたデータセットからの参照プロンプトと類似している必要がある。
このデータセットは発見されたプロンプトのテンプレートとして機能し、特定のトピックやスタイル、有害な振る舞いのタイプに対するテストケースの検索をアンロックする。
この設定では、確立された自己回帰モデルアーキテクチャがうまく機能しないことを示す。
そこで我々は,テキスト拡散モデル(DART: Diffusion for Auditing and Red-Teaming)にインスパイアされた,ブラックボックスのレッドチーム方式を導入する。
DARTは、それを埋め込み空間に摂動させ、導入した変更量を直接制御することで参照プロンプトを変更する。
提案手法の有効性を,モデル微調整とゼロショットプロンプトと少数ショットプロンプトに基づく確立された手法と比較することにより,系統的に評価する。
以上の結果より,DARTは基準プロンプトに近接して有害な入力を発見できる可能性が示唆された。
関連論文リスト
- Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming [37.32997502058661]
本稿では,数個のトークンで入力プロンプトを再構築するプラグイン・アンド・プレイプレフィックスモジュールとしてtextbfsentinel モデルを提案する。
センチネルモデルは、微調整された大きなターゲットモデルに対するテキストパラメータ非効率性とテキスト制限モデルアクセシビリティを自然に克服する。
テキスト・ツー・テキスト・ツー・イメージを用いた実験により,有害な出力を緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-05-21T08:57:44Z) - Curiosity-driven Red-teaming for Large Language Models [43.448044721642916]
大規模言語モデル(LLM)は、多くの自然言語アプリケーションにとって大きな可能性を秘めているが、誤ったまたは有害なコンテンツを生成するリスクがある。
ヒューマンテスタにのみ依存することは、高価で時間を要する。
好奇心駆動型レッド・チームリング (CRT) の手法は, 既存の方法と比較して, 有効性を維持したり, 向上させたりしながら, テストケースのカバレッジを向上する。
論文 参考訳(メタデータ) (2024-02-29T18:55:03Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Explore, Establish, Exploit: Red Teaming Language Models from Scratch [7.949645304649025]
我々は、相手が失敗を分類する方法から始めない「ゼロから」レッドチームを考える。
我々は,この手法を用いて,偽文を抽出する入力のクラスを発見する。
論文 参考訳(メタデータ) (2023-06-15T18:49:50Z) - Knowledge Combination to Learn Rotated Detection Without Rotated
Annotation [53.439096583978504]
回転バウンディングボックスは、伸長したオブジェクトの出力あいまいさを劇的に減少させる。
この効果にもかかわらず、回転検出器は広く使われていない。
本稿では,モデルが正確な回転ボックスを予測できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T03:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。