論文の概要: Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the
Wild
- arxiv url: http://arxiv.org/abs/2311.06237v2
- Date: Mon, 13 Nov 2023 17:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 11:10:23.345504
- Title: Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the
Wild
- Title(参考訳): 悪魔を召喚し、それを縛る: llm red teaming in the wild の根拠のある理論
- Authors: Nanna Inie, Jonathan Stray, Leon Derczynski
- Abstract要約: 大規模言語モデルからの異常な出力を意図的に発生させることは、新しい人間の活動である。
本稿では、このような攻撃を行う方法と理由を詳細に解説する。
- 参考スコア(独自算出の注目度): 21.609894619825397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engaging in the deliberate generation of abnormal outputs from large language
models (LLMs) by attacking them is a novel human activity. This paper presents
a thorough exposition of how and why people perform such attacks. Using a
formal qualitative methodology, we interviewed dozens of practitioners from a
broad range of backgrounds, all contributors to this novel work of attempting
to cause LLMs to fail. We relate and connect this activity between its
practitioners' motivations and goals; the strategies and techniques they
deploy; and the crucial role the community plays. As a result, this paper
presents a grounded theory of how and why people attack large language models:
LLM red teaming in the wild.
- Abstract(参考訳): 大規模言語モデル(llm)からの異常出力の意図的な生成に攻撃を加えることは、新しい人間の活動である。
本稿では、このような攻撃を行う方法と理由を詳細に解説する。
フォーマルな定性的な方法論を使用して、幅広いバックグラウンドを持つ数十人の実践者、すべてのコントリビュータにLLMを失敗させようとするこの新しい仕事についてインタビューしました。
私たちは、実践者のモチベーションと目標、それらが展開する戦略と技術、そしてコミュニティが果たす重要な役割を関連づけ、関連付けます。
その結果,大規模言語モデルに対してどのように,なぜ人々が攻撃するかという基礎的な理論が提示された: LLM Red Teaming in the wild。
関連論文リスト
- Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ? [22.0383367888756]
大規模言語モデル(LLM)は、トレーニングデータとアライメントプロセスからバイアスを受け継ぎ、微妙な方法で応答に影響を与える。
LLMの2つのインスタンスが自己議論を行う新しいアプローチを導入し、反対の視点でモデルの中立バージョンを説得する。
我々は、モデルがどのようにしっかりとバイアスを保ち、誤った情報を強化するか、有害な視点に移行するかを評価する。
論文 参考訳(メタデータ) (2024-10-17T13:06:02Z) - Exploring Straightforward Conversational Red-Teaming [3.5294587603612486]
オフザシェルフな大きな言語モデルは、効果的なレッドチームとして機能します。
オフザシェルフモデルは過去の試みに基づいて攻撃戦略を調整することができる。
論文 参考訳(メタデータ) (2024-09-07T13:28:01Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs [9.254047358707014]
我々はemphSandwich攻撃と呼ばれる新しいブラックボックス攻撃ベクトル、多言語混合攻撃を導入する。
GoogleのBard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, Claude-3-OPUS の5つの異なるモデルを用いた実験により, この攻撃ベクトルは敵が有害な応答を生成するために使用できることを示した。
論文 参考訳(メタデータ) (2024-04-09T18:29:42Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors,
and Lessons Learned [10.836210010868932]
3つのモデルサイズ(2.7B, 13B, 52Bパラメータ)と4つのモデルタイプにまたがるレッド・チームリングのスケーリング挙動について検討した。
私たちは38,961人のレッドチームによる攻撃のデータセットをリリースし、他者が分析し、そこから学びます。
論文 参考訳(メタデータ) (2022-08-23T23:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。