Fugu-MT 論文翻訳(概要): Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models

論文の概要: Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models

arxiv url: http://arxiv.org/abs/2310.00322v3
Date: Mon, 1 Apr 2024 09:09:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 13:02:27.821457
Title: Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models
Title（参考訳）: Red Teaming Game: レッドチーム言語モデルのためのゲーム理論フレームワーク
Authors: Chengdong Ma, Ziran Yang, Minquan Gao, Hai Ci, Jun Gao, Xuehai Pan, Yaodong Yang,
Abstract要約: 本稿では,手作業によるアノテーションのない一般的なゲーム理論フレームワークであるRed-teaming Game(RTG)を紹介する。 GRTSは、メタゲーム分析によってRTGをナッシュ平衡へ向けた自動レッドチーム化技術である。 RLMによるマルチターン攻撃の実証結果は、GRTSが自律的に多様な攻撃戦略を発見したことを示している。
参考スコア（独自算出の注目度）: 11.873513881458747
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deployable Large Language Models (LLMs) must conform to the criterion of helpfulness and harmlessness, thereby achieving consistency between LLMs outputs and human values. Red-teaming techniques constitute a critical way towards this criterion. Existing work rely solely on manual red team designs and heuristic adversarial prompts for vulnerability detection and optimization. These approaches lack rigorous mathematical formulation, thus limiting the exploration of diverse attack strategy within quantifiable measure and optimization of LLMs under convergence guarantees. In this paper, we present Red-teaming Game (RTG), a general game-theoretic framework without manual annotation. RTG is designed for analyzing the multi-turn attack and defense interactions between Red-team language Models (RLMs) and Blue-team Language Model (BLM). Within the RTG, we propose Gamified Red-teaming Solver (GRTS) with diversity measure of the semantic space. GRTS is an automated red teaming technique to solve RTG towards Nash equilibrium through meta-game analysis, which corresponds to the theoretically guaranteed optimization direction of both RLMs and BLM. Empirical results in multi-turn attacks with RLMs show that GRTS autonomously discovered diverse attack strategies and effectively improved security of LLMs, outperforming existing heuristic red-team designs. Overall, RTG has established a foundational framework for red teaming tasks and constructed a new scalable oversight technique for alignment.
Abstract（参考訳）: デプロイ可能な大規模言語モデル(LLM)は、有用性と無害性の基準に従わなければならない。赤いチームのテクニックは、この基準に対する重要な方法です。既存の作業は、手動のレッドチーム設計と、脆弱性検出と最適化のためのヒューリスティックな対抗策にのみ依存している。これらの手法は厳密な数学的定式化を欠き、定量化尺度における多様な攻撃戦略の探索と収束保証の下でのLLMの最適化を制限している。本稿では,手動アノテーションのない一般的なゲーム理論フレームワークであるRed-teaming Game(RTG)を提案する。 RTGは、レッドチーム言語モデル(RLM)とブルーチーム言語モデル(BLM)のマルチターン攻撃と防御相互作用を分析するように設計されている。 RTG内では,意味空間の多様性を指標とした Gamified Red-teaming Solver (GRTS) を提案する。 GRTSはメタゲーム解析によりRTGをナッシュ平衡へ向けた自動レッドチーム化技術であり、理論的に保証された RLM と BLM の最適化方向に対応する。 RLMによるマルチターン攻撃の実証的な結果から、GRTSは様々な攻撃戦略を自律的に発見し、LLMのセキュリティを効果的に改善し、既存のヒューリスティックなレッドチーム設計よりも優れていた。全体として、RTGはレッドチームタスクの基礎となるフレームワークを確立し、アライメントのための新しいスケーラブルな監視技術を構築した。

関連論文リスト

Automatic LLM Red Teaming [18.044879441434432]
我々は、AIを戦略的に破壊するように訓練する、新しいパラダイムを提案する。生成エージェントは、きめ細かいトークンレベルのハーネス報酬を通じて、コヒーレントで多ターン攻撃戦略を学習する。このアプローチは、ダイナミックな軌道ベースのプロセスとして、新しい最先端、根本的にリフレーミングなレッドチームを設定する。
論文参考訳（メタデータ） (2025-08-06T13:52:00Z)
Quality-Diversity Red-Teaming: Automated Generation of High-Quality and Diverse Attackers for Large Language Models [34.601888589730194]
本稿では,これらの制約に対処する新しいフレームワークであるQDRTを紹介する。 QDRTは、行動条件付きトレーニングを通じて目標駆動の多様性を実現し、オープンな方法で行動リプレイバッファを実装する。我々の経験的評価は、QDRTがより多種多様で、広範囲のLLMに対してより効果的に攻撃を発生させることを示す。
論文参考訳（メタデータ） (2025-06-08T13:07:41Z)
CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [61.404771120828244]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文参考訳（メタデータ） (2025-06-01T02:18:41Z)
MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming [38.25556351567948]
textbfMulti-textbfTurn textbfSafety textbfAlignment (urapproach)フレームワーク。レッドチームモデルは、敵のプロンプトを生成するために、思考誘導型マルチラウンドジェイルブレイク攻撃について学習する。敵の反復最適化ステージ、レッドチームモデル、ターゲットモデルは、相互作用におけるそれぞれの能力を継続的に改善します。
論文参考訳（メタデータ） (2025-05-22T08:22:57Z)
X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents [80.6836084998329]
X-Teamingは、一見無害な相互作用が有害な結果へとエスカレートし、対応する攻撃シナリオを生成するフレームワークである。 X-Teamingは最新のClaude 3.7 Sonnetモデルに対して96.2%の攻撃成功率を達成した。 XGuard-Trainは、オープンソースのマルチターン安全トレーニングデータセットで、前回のベストリソースの20倍大きい。
論文参考訳（メタデータ） (2025-04-15T16:11:28Z)
Building Safe GenAI Applications: An End-to-End Overview of Red Teaming for Large Language Models [1.9574002186090496]
LLM(Large Language Models)の急速な成長は、プライバシー、セキュリティ、倫理上の懸念を生じさせる。研究者は最近、レッドチームによる攻撃的なアプローチでこれらの取り組みを補完した。本稿では,LLMレッド・チームリング文学の簡潔かつ実践的な概要について述べる。
論文参考訳（メタデータ） (2025-03-03T17:04:22Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文参考訳（メタデータ） (2024-09-26T01:24:17Z)
Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文参考訳（メタデータ） (2024-09-25T09:44:48Z)
Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts [25.661444231400772]
大規模視覚言語モデル(VLM)は、大規模言語モデル(LLM)の知覚能力を拡張し、拡張するこれらの進歩は、特に有害なコンテンツの生成に関して、重要なセキュリティと倫理上の懸念を引き起こす。 VLMに特化した標準化されたレッドチームフレームワークであるArondightを紹介します。
論文参考訳（メタデータ） (2024-07-21T04:37:11Z)
DiveR-CT: Diversity-enhanced Red Teaming with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文参考訳（メタデータ） (2024-05-29T12:12:09Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
Against The Achilles' Heel: A Survey on Red Teaming for Generative Models [60.21722603260243]
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。我々は、様々な自動レッドチーム化アプローチを統合するために、"searcher"フレームワークを開発した。
論文参考訳（メタデータ） (2024-03-31T09:50:39Z)
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts [57.49685172971446]
敵のプロンプトを多種多様に集めるための新しいブラックボックスアプローチであるレインボー・ブッキングを紹介する。提案手法では, 攻撃成功率が90%を超え, 効果的に対抗できるプロンプトが何百もあることが明らかとなった。さらに、質問応答とサイバーセキュリティに適用することで、レインボーチーム(Rainbow Teaming)の汎用性についても検討する。
論文参考訳（メタデータ） (2024-02-26T18:47:27Z)
Gradient-Based Language Model Red Teaming [9.972783485792885]
Red Teamingは、ジェネレーティブ言語モデル(LM)の弱点を特定するための戦略であるレッド・チームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。我々は、LMが安全でない応答を出力する可能性のある多様なプロンプトを自動生成する、GBRT(Gradient-Based Red Teaming)を提案する。
論文参考訳（メタデータ） (2024-01-30T01:19:25Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
Cooperation or Competition: Avoiding Player Domination for Multi-Target Robustness via Adaptive Budgets [76.20705291443208]
我々は、敵攻撃を、異なるプレイヤーがパラメータ更新の合同方向で合意に達するために交渉する交渉ゲームであると見なしている。我々は、プレイヤーの優位性を避けるために、異なる敵の予算を調整する新しいフレームワークを設計する。標準ベンチマークの実験では、提案したフレームワークを既存のアプローチに適用することで、マルチターゲットロバスト性が大幅に向上することが示された。
論文参考訳（メタデータ） (2023-06-27T14:02:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。