論文の概要: Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the
Wild
- arxiv url: http://arxiv.org/abs/2311.06237v1
- Date: Fri, 10 Nov 2023 18:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 14:17:48.280340
- Title: Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the
Wild
- Title(参考訳): 悪魔を召喚し、それを縛る: llm red teaming in the wild の根拠のある理論
- Authors: Nanna Inie, Jonathan Stray, Leon Derczynski
- Abstract要約: 大規模言語モデルからの異常な出力を意図的に発生させることは、新しい人間の活動である。
本稿では、このような攻撃を行う方法と理由を詳細に解説する。
- 参考スコア(独自算出の注目度): 21.609894619825397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engaging in the deliberate generation of abnormal outputs from large language
models (LLMs) by attacking them is a novel human activity. This paper presents
a thorough exposition of how and why people perform such attacks. Using a
formal qualitative methodology, we interviewed dozens of practitioners from a
broad range of backgrounds, all contributors to this novel work of attempting
to cause LLMs to fail. We relate and connect this activity between its
practitioners' motivations and goals; the strategies and techniques they
deploy; and the crucial role the community plays. As a result, this paper
presents a grounded theory of how and why people attack large language models:
LLM red teaming in the wild.
- Abstract(参考訳): 大規模言語モデル(llm)からの異常出力の意図的な生成に攻撃を加えることは、新しい人間の活動である。
本稿では、このような攻撃を行う方法と理由を詳細に解説する。
フォーマルな定性的な方法論を使用して、幅広いバックグラウンドを持つ数十人の実践者、すべてのコントリビュータにLLMを失敗させようとするこの新しい仕事についてインタビューしました。
私たちは、実践者のモチベーションと目標、それらが展開する戦略と技術、そしてコミュニティが果たす重要な役割を関連づけ、関連付けます。
その結果,大規模言語モデルに対してどのように,なぜ人々が攻撃するかという基礎的な理論が提示された: LLM Red Teaming in the wild。
関連論文リスト
- Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。
現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文 参考訳(メタデータ) (2025-01-31T23:42:53Z) - LLM+AL: Bridging Large Language Models and Action Languages for Complex Reasoning about Actions [7.575628120822444]
LLM+ALは,LLMの自然言語理解能力を,行動言語の記号的推論強度で橋渡しする手法である。
LLM+AL"はChatGPT-4, Claude 3 Opus, Gemini Ultra 1.0, o1-previewなど,最先端のLLMと比較する。
以上の結果から,LLM+ALは比較的最小限の修正しか行わないが,常に正しい解が得られることが示唆された。
論文 参考訳(メタデータ) (2025-01-01T13:20:01Z) - Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Exploring Straightforward Conversational Red-Teaming [3.5294587603612486]
オフザシェルフな大きな言語モデルは、効果的なレッドチームとして機能します。
オフザシェルフモデルは過去の試みに基づいて攻撃戦略を調整することができる。
論文 参考訳(メタデータ) (2024-09-07T13:28:01Z) - LLM-Generated Black-box Explanations Can Be Adversarially Helpful [16.49758711633611]
大規模言語モデル(LLM)は,デジタルアシスタントとして機能することで,複雑な問題の解決と理解を支援する。
私たちの研究は、このアプローチに結びついている隠れたリスクを明らかにします。
LLMの説明が間違った答えを正しく見せると、これは起こります。
論文 参考訳(メタデータ) (2024-05-10T20:23:46Z) - Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Combating Misinformation in the Age of LLMs: Opportunities and
Challenges [21.712051537924136]
LLM(Large Language Models)の出現は、誤情報と戦う環境を再構築する大きな可能性を秘めている。
一方、LLMは、その深い世界知識と強力な推論能力のために、誤情報と戦うための有望な機会をもたらす。
一方,LLMは大規模に誤情報を生成するために容易に活用できるという点が重要な課題である。
論文 参考訳(メタデータ) (2023-11-09T00:05:27Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。