Fugu-MT 論文翻訳(概要): Against The Achilles' Heel: A Survey on Red Teaming for Generative Models

論文の概要: Against The Achilles' Heel: A Survey on Red Teaming for Generative Models

arxiv url: http://arxiv.org/abs/2404.00629v1
Date: Sun, 31 Mar 2024 09:50:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 02:40:27.595599
Title: Against The Achilles' Heel: A Survey on Red Teaming for Generative Models
Title（参考訳）: アキレス腱に反する - 生成モデルのレッドチーム化に関する調査
Authors: Lizhi Lin, Honglin Mu, Zenan Zhai, Minghan Wang, Yuxia Wang, Renxi Wang, Junjie Gao, Yixuan Zhang, Wanxiang Che, Timothy Baldwin, Xudong Han, Haonan Li,
Abstract要約: 赤いチーム作りの分野は急速に成長しており、パイプライン全体をカバーする包括的な組織の必要性を強調している。 120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。我々は,様々な自動レッド・チーム・アプローチを統合するサーチ・フレームワークを開発した。
参考スコア（独自算出の注目度）: 60.21722603260243
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative models are rapidly gaining popularity and being integrated into everyday applications, raising concerns over their safety issues as various vulnerabilities are exposed. Faced with the problem, the field of red teaming is experiencing fast-paced growth, which highlights the need for a comprehensive organization covering the entire pipeline and addressing emerging topics for the community. Our extensive survey, which examines over 120 papers, introduces a taxonomy of fine-grained attack strategies grounded in the inherent capabilities of language models. Additionally, we have developed the searcher framework that unifies various automatic red teaming approaches. Moreover, our survey covers novel areas including multimodal attacks and defenses, risks around multilingual models, overkill of harmless queries, and safety of downstream applications. We hope this survey can provide a systematic perspective on the field and unlock new areas of research.
Abstract（参考訳）: 生成モデルは急速に普及し、日々のアプリケーションに統合され、さまざまな脆弱性が暴露されるにつれて、安全上の問題に対する懸念が高まっている。問題に直面して、赤いチーム作りの分野は急速に成長しており、パイプライン全体をカバーする包括的な組織の必要性と、コミュニティの新たなトピックに対処する必要性を強調している。 120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。さらに,様々な自動レッド・チーム・アプローチを統合するサーチ・フレームワークを開発した。さらに,マルチモーダル攻撃や防衛,多言語モデルに関するリスク,無害なクエリの過小評価,下流アプリケーションの安全性など,新たな分野についても検討した。この調査がこの分野の体系的な視点を提供し、新たな研究領域の開放を期待する。

関連論文リスト

A Survey on Agentic Security: Applications, Threats and Defenses [6.83318476483428]
受動LSMから自律LSMエージェントへの急速なシフトは、サイバーセキュリティの新しいパラダイムである。これらのエージェントは攻撃的かつ防御的な操作のための強力なツールとして機能するが、非常にエージェント的なコンテキストは、固有のセキュリティリスクの新たなクラスを導入している。我々は150以上の論文を包括的に分類し、エージェントの使用方法、それらが持つ脆弱性、それらを保護するために設計された対策を説明します。
論文参考訳（メタデータ） (2025-10-07T20:32:20Z)
CoP: Agentic Red-teaming for Large Language Models using Composition of Principles [61.404771120828244]
本稿では,Large Language Models (LLM) のリピートプロセスを自動化するエージェントワークフローを提案する。ヒューマンユーザは、AIエージェントへの指示として、効果的な赤チーム戦略を自動オーケストレーションし、ジェイルブレイクプロンプトを生成する、一連の赤チームの原則を提供する。先進的なLLMに対して試験すると、CoPは新しいジェイルブレイクプロンプトを見つけ、最もよく知られているシングルターン攻撃の成功率を19.0倍に改善することで、前例のない安全リスクを明らかにしている。
論文参考訳（メタデータ） (2025-06-01T02:18:41Z)
Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。 AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。 JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文参考訳（メタデータ） (2025-04-02T01:06:19Z)
MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文参考訳（メタデータ） (2025-03-24T20:38:42Z)
Building Safe GenAI Applications: An End-to-End Overview of Red Teaming for Large Language Models [1.9574002186090496]
LLM(Large Language Models)の急速な成長は、プライバシー、セキュリティ、倫理上の懸念を生じさせる。研究者は最近、レッドチームによる攻撃的なアプローチでこれらの取り組みを補完した。本稿では,LLMレッド・チームリング文学の簡潔かつ実践的な概要について述べる。
論文参考訳（メタデータ） (2025-03-03T17:04:22Z)
MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文参考訳（メタデータ） (2025-02-25T04:23:59Z)
Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming [24.303849271284676]
Red Teamingは,Large Language Models(LLMs)から有害な応答を引き出す可能性のあるプロンプトを見つけることを目的とする。広さと深さの両面にわたるレッド・チーム・プロンプトを進化させるスケーラブルな進化フレームワークRTPEを提案する。 RTPEは攻撃成功率と多様性の両方において、既存の代表的自動レッドチーム法を超越している。
論文参考訳（メタデータ） (2025-02-22T06:13:19Z)
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey [50.031628043029244]
マルチモーダル生成モデルは、ビルトインの安全機構をバイパスし、潜在的に有害なコンテンツの生成を誘導できる、ジェイルブレイク攻撃の影響を受けやすい。本調査は,マルチモーダル生成モデルにおけるジェイルブレイクと防御についてレビューする。
論文参考訳（メタデータ） (2024-11-14T07:51:51Z)
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文参考訳（メタデータ） (2024-10-20T00:00:56Z)
Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations [0.0]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な機能を示しているが、Jailbreak攻撃に対する脆弱性は重大なセキュリティリスクをもたらす。本稿では,Large Language Model (LLM) のレッドチームにおける攻撃戦略と防御機構の最近の進歩を包括的に分析する。
論文参考訳（メタデータ） (2024-10-09T01:35:38Z)
Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文参考訳（メタデータ） (2024-09-25T09:44:48Z)
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。 LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文参考訳（メタデータ） (2024-07-10T06:57:58Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts [57.49685172971446]
敵のプロンプトを多種多様に集めるための新しいブラックボックスアプローチであるレインボー・ブッキングを紹介する。提案手法では, 攻撃成功率が90%を超え, 効果的に対抗できるプロンプトが何百もあることが明らかとなった。さらに、質問応答とサイバーセキュリティに適用することで、レインボーチーム(Rainbow Teaming)の汎用性についても検討する。
論文参考訳（メタデータ） (2024-02-26T18:47:27Z)
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文参考訳（メタデータ） (2023-10-16T21:37:24Z)
FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文参考訳（メタデータ） (2023-08-08T14:03:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。