論文の概要: Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming
- arxiv url: http://arxiv.org/abs/2311.06237v3
- Date: Tue, 10 Dec 2024 20:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:59:30.539009
- Title: Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming
- Title(参考訳): Summon a Demon and Bind: A Grounded Theory of LLM Red Teaming
- Authors: Nanna Inie, Jonathan Stray, Leon Derczynski,
- Abstract要約: 本稿では、このような攻撃を行う方法と理由を詳細に解説する。
フォーマルな定性的な方法論を用いて、幅広いバックグラウンドから数十人の実践者をインタビューした。
我々は12の戦略と35の異なるLLM攻撃手法の分類を同定する。
- 参考スコア(独自算出の注目度): 19.227599209242292
- License:
- Abstract: Engaging in the deliberate generation of abnormal outputs from Large Language Models (LLMs) by attacking them is a novel human activity. This paper presents a thorough exposition of how and why people perform such attacks, defining LLM red-teaming based on extensive and diverse evidence. Using a formal qualitative methodology, we interviewed dozens of practitioners from a broad range of backgrounds, all contributors to this novel work of attempting to cause LLMs to fail. We focused on the research questions of defining LLM red teaming, uncovering the motivations and goals for performing the activity, and characterizing the strategies people use when attacking LLMs. Based on the data, LLM red teaming is defined as a limit-seeking, non-malicious, manual activity, which depends highly on a team-effort and an alchemist mindset. It is highly intrinsically motivated by curiosity, fun, and to some degrees by concerns for various harms of deploying LLMs. We identify a taxonomy of 12 strategies and 35 different techniques of attacking LLMs. These findings are presented as a comprehensive grounded theory of how and why people attack large language models: LLM red teaming.
- Abstract(参考訳): 大規模言語モデル(LLM)からの意図的な異常な出力を攻撃することによって発生させることは、新しい人間の活動である。
本稿では,LLMリピートを多様かつ多様な証拠に基づいて定義し,このような攻撃の方法と理由を詳細に解説する。
フォーマルな定性的な方法論を用いて、幅広いバックグラウンドを持つ数十人の実践者、すべてのコントリビュータにLLMを失敗させようとするこの新しい仕事についてインタビューしました。
我々は,LLMレッドチームの定義,活動のモチベーションと目標を明らかにすること,LLM攻撃時に使用する戦略の特徴を明らかにすること,といった研究課題に焦点をあてた。
データに基づいて、LLMのレッドチーム化は、チームワークと錬金術師の考え方に大きく依存する、限定的な、非致命的な手動の活動として定義される。
好奇心、楽しみ、そしてLLMの展開の様々な害に対する懸念によってある程度の程度に動機付けられている。
我々は12の戦略と35の異なるLLM攻撃手法の分類を同定する。
これらの発見は、人々がどのようにして、なぜ大きな言語モデルを攻撃するかについての包括的な根拠となる理論として示される: LLM red teaming。
関連論文リスト
- Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。
現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文 参考訳(メタデータ) (2025-01-31T23:42:53Z) - LLM+AL: Bridging Large Language Models and Action Languages for Complex Reasoning about Actions [7.575628120822444]
LLM+ALは,LLMの自然言語理解能力を,行動言語の記号的推論強度で橋渡しする手法である。
LLM+AL"はChatGPT-4, Claude 3 Opus, Gemini Ultra 1.0, o1-previewなど,最先端のLLMと比較する。
以上の結果から,LLM+ALは比較的最小限の修正しか行わないが,常に正しい解が得られることが示唆された。
論文 参考訳(メタデータ) (2025-01-01T13:20:01Z) - Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Exploring Straightforward Conversational Red-Teaming [3.5294587603612486]
オフザシェルフな大きな言語モデルは、効果的なレッドチームとして機能します。
オフザシェルフモデルは過去の試みに基づいて攻撃戦略を調整することができる。
論文 参考訳(メタデータ) (2024-09-07T13:28:01Z) - LLM-Generated Black-box Explanations Can Be Adversarially Helpful [16.49758711633611]
大規模言語モデル(LLM)は,デジタルアシスタントとして機能することで,複雑な問題の解決と理解を支援する。
私たちの研究は、このアプローチに結びついている隠れたリスクを明らかにします。
LLMの説明が間違った答えを正しく見せると、これは起こります。
論文 参考訳(メタデータ) (2024-05-10T20:23:46Z) - Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Combating Misinformation in the Age of LLMs: Opportunities and
Challenges [21.712051537924136]
LLM(Large Language Models)の出現は、誤情報と戦う環境を再構築する大きな可能性を秘めている。
一方、LLMは、その深い世界知識と強力な推論能力のために、誤情報と戦うための有望な機会をもたらす。
一方,LLMは大規模に誤情報を生成するために容易に活用できるという点が重要な課題である。
論文 参考訳(メタデータ) (2023-11-09T00:05:27Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。