論文の概要: Against The Achilles' Heel: A Survey on Red Teaming for Generative Models
- arxiv url: http://arxiv.org/abs/2404.00629v1
- Date: Sun, 31 Mar 2024 09:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:40:27.595599
- Title: Against The Achilles' Heel: A Survey on Red Teaming for Generative Models
- Title(参考訳): アキレス腱に反する - 生成モデルのレッドチーム化に関する調査
- Authors: Lizhi Lin, Honglin Mu, Zenan Zhai, Minghan Wang, Yuxia Wang, Renxi Wang, Junjie Gao, Yixuan Zhang, Wanxiang Che, Timothy Baldwin, Xudong Han, Haonan Li,
- Abstract要約: 赤いチーム作りの分野は急速に成長しており、パイプライン全体をカバーする包括的な組織の必要性を強調している。
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。
我々は,様々な自動レッド・チーム・アプローチを統合するサーチ・フレームワークを開発した。
- 参考スコア(独自算出の注目度): 60.21722603260243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models are rapidly gaining popularity and being integrated into everyday applications, raising concerns over their safety issues as various vulnerabilities are exposed. Faced with the problem, the field of red teaming is experiencing fast-paced growth, which highlights the need for a comprehensive organization covering the entire pipeline and addressing emerging topics for the community. Our extensive survey, which examines over 120 papers, introduces a taxonomy of fine-grained attack strategies grounded in the inherent capabilities of language models. Additionally, we have developed the searcher framework that unifies various automatic red teaming approaches. Moreover, our survey covers novel areas including multimodal attacks and defenses, risks around multilingual models, overkill of harmless queries, and safety of downstream applications. We hope this survey can provide a systematic perspective on the field and unlock new areas of research.
- Abstract(参考訳): 生成モデルは急速に普及し、日々のアプリケーションに統合され、さまざまな脆弱性が暴露されるにつれて、安全上の問題に対する懸念が高まっている。
問題に直面して、赤いチーム作りの分野は急速に成長しており、パイプライン全体をカバーする包括的な組織の必要性と、コミュニティの新たなトピックに対処する必要性を強調している。
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。
さらに,様々な自動レッド・チーム・アプローチを統合するサーチ・フレームワークを開発した。
さらに,マルチモーダル攻撃や防衛,多言語モデルに関するリスク,無害なクエリの過小評価,下流アプリケーションの安全性など,新たな分野についても検討した。
この調査がこの分野の体系的な視点を提供し、新たな研究領域の開放を期待する。
関連論文リスト
- Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts [48.84371867045439]
我々は、様々な敵のプロンプトを生産するための新しいアプローチであるレインボー・ブッキングを提示する。
この論文では、安全性、質問応答、サイバーセキュリティなど、幅広い領域にわたるモデルの脆弱性を明らかにすることができる。
論文 参考訳(メタデータ) (2024-02-26T18:47:27Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - Large Language Models for Information Retrieval: A Survey [57.7992728506871]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - A Comprehensive Survey of Forgetting in Deep Learning Beyond Continual
Learning [76.47138162283714]
蓄積とは、以前取得した情報や知識の喪失または劣化を指す。
フォッテッティングは、深層学習における様々な研究領域でよく見られる現象である。
調査では、忘れることは二重刃の剣であり、ある場合には有益で望ましいと論じている。
論文 参考訳(メタデータ) (2023-07-16T16:27:58Z) - Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文 参考訳(メタデータ) (2022-10-14T10:43:39Z) - A Unifying Framework for Formal Theories of Novelty:Framework, Examples
and Discussion [0.0]
エージェントがラボからオープンワールドに移動するとき、新規、未知、または分散しない入力を管理することは重要です。
ノベルティの形式的理論のための最初の統一フレームワークを提示し、このフレームワークを使用してノベルティタイプのファミリーを公式に定義する。
当社のフレームワークは、象徴的なAIから強化学習、さらにはオープンワールドイメージ認識まで、幅広い領域に適用できます。
論文 参考訳(メタデータ) (2020-12-08T05:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。