論文の概要: Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models
- arxiv url: http://arxiv.org/abs/2310.00322v3
- Date: Mon, 1 Apr 2024 09:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 13:02:27.821457
- Title: Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models
- Title(参考訳): Red Teaming Game: レッドチーム言語モデルのためのゲーム理論フレームワーク
- Authors: Chengdong Ma, Ziran Yang, Minquan Gao, Hai Ci, Jun Gao, Xuehai Pan, Yaodong Yang,
- Abstract要約: 本稿では,手作業によるアノテーションのない一般的なゲーム理論フレームワークであるRed-teaming Game(RTG)を紹介する。
GRTSは、メタゲーム分析によってRTGをナッシュ平衡へ向けた自動レッドチーム化技術である。
RLMによるマルチターン攻撃の実証結果は、GRTSが自律的に多様な攻撃戦略を発見したことを示している。
- 参考スコア(独自算出の注目度): 11.873513881458747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deployable Large Language Models (LLMs) must conform to the criterion of helpfulness and harmlessness, thereby achieving consistency between LLMs outputs and human values. Red-teaming techniques constitute a critical way towards this criterion. Existing work rely solely on manual red team designs and heuristic adversarial prompts for vulnerability detection and optimization. These approaches lack rigorous mathematical formulation, thus limiting the exploration of diverse attack strategy within quantifiable measure and optimization of LLMs under convergence guarantees. In this paper, we present Red-teaming Game (RTG), a general game-theoretic framework without manual annotation. RTG is designed for analyzing the multi-turn attack and defense interactions between Red-team language Models (RLMs) and Blue-team Language Model (BLM). Within the RTG, we propose Gamified Red-teaming Solver (GRTS) with diversity measure of the semantic space. GRTS is an automated red teaming technique to solve RTG towards Nash equilibrium through meta-game analysis, which corresponds to the theoretically guaranteed optimization direction of both RLMs and BLM. Empirical results in multi-turn attacks with RLMs show that GRTS autonomously discovered diverse attack strategies and effectively improved security of LLMs, outperforming existing heuristic red-team designs. Overall, RTG has established a foundational framework for red teaming tasks and constructed a new scalable oversight technique for alignment.
- Abstract(参考訳): デプロイ可能な大規模言語モデル(LLM)は、有用性と無害性の基準に従わなければならない。
赤いチームのテクニックは、この基準に対する重要な方法です。
既存の作業は、手動のレッドチーム設計と、脆弱性検出と最適化のためのヒューリスティックな対抗策にのみ依存している。
これらの手法は厳密な数学的定式化を欠き、定量化尺度における多様な攻撃戦略の探索と収束保証の下でのLLMの最適化を制限している。
本稿では,手動アノテーションのない一般的なゲーム理論フレームワークであるRed-teaming Game(RTG)を提案する。
RTGは、レッドチーム言語モデル(RLM)とブルーチーム言語モデル(BLM)のマルチターン攻撃と防御相互作用を分析するように設計されている。
RTG内では,意味空間の多様性を指標とした Gamified Red-teaming Solver (GRTS) を提案する。
GRTSはメタゲーム解析によりRTGをナッシュ平衡へ向けた自動レッドチーム化技術であり、理論的に保証された RLM と BLM の最適化方向に対応する。
RLMによるマルチターン攻撃の実証的な結果から、GRTSは様々な攻撃戦略を自律的に発見し、LLMのセキュリティを効果的に改善し、既存のヒューリスティックなレッドチーム設計よりも優れていた。
全体として、RTGはレッドチームタスクの基礎となるフレームワークを確立し、アライメントのための新しいスケーラブルな監視技術を構築した。
関連論文リスト
- Large Language Models as an Indirect Reasoner: Contrapositive and
Contradiction for Automated Reasoning [79.37150041259066]
本稿では, 事実推論や数学的証明といったIR課題に対処するために, 反陽性と矛盾の論理を用いた間接推論(IR)手法を提案する。
GPT-3.5-turbo や Gemini-pro などの一般的な LLM の実験結果から,我々のIR 法は事実推論の総合的精度を27.33%,数学的証明を31.43%向上させることを示した。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - Gradient-Based Language Model Red Teaming [9.972783485792885]
Red Teamingは、ジェネレーティブ言語モデル(LM)の弱点を特定するための戦略である
レッド・チームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。
我々は、LMが安全でない応答を出力する可能性のある多様なプロンプトを自動生成する、GBRT(Gradient-Based Red Teaming)を提案する。
論文 参考訳(メタデータ) (2024-01-30T01:19:25Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:17:15Z) - Mixed Strategies for Security Games with General Defending Requirements [37.02840909260615]
Stackelbergのセキュリティゲームはディフェンダーとアタッカーの間で行われ、ディフェンダーは複数のターゲットに限られたリソースを割り当てる必要がある。
そこで本研究では,ごく少数の戦略のみを用いる混合戦略を計算し,効率的な近似パチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-26T08:56:39Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。