論文の概要: Dr. Jekyll and Mr. Hyde: Two Faces of LLMs
- arxiv url: http://arxiv.org/abs/2312.03853v5
- Date: Mon, 07 Oct 2024 15:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:40:06.202952
- Title: Dr. Jekyll and Mr. Hyde: Two Faces of LLMs
- Title(参考訳): Dr. JekyllとMr. Hyde: LLMの2つの顔
- Authors: Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro Conti, Stjepan Picek,
- Abstract要約: 本研究では,ChatGPTとGeminiを,忠実なアシスタントと一致しない人格特性を持つ複雑なペルソナに擬人化させる。
ペルソナを用いて、禁止された応答が提供され、不正、違法、有害な情報を得ることができることを示す。
同じ原則で、モデルに信頼に値する個人性を解釈させ、そのような攻撃に対してより堅牢にする2つの防衛法を導入する。
- 参考スコア(独自算出の注目度): 23.428082923794708
- License:
- Abstract: Recently, we have witnessed a rise in the use of Large Language Models (LLMs), especially in applications like chatbots. Safety mechanisms are implemented to prevent improper responses from these chatbots. In this work, we bypass these measures for ChatGPT and Gemini by making them impersonate complex personas with personality characteristics that are not aligned with a truthful assistant. First, we create elaborate biographies of these personas, which we then use in a new session with the same chatbots. Our conversations then follow a role-play style to elicit prohibited responses. Using personas, we show that prohibited responses are provided, making it possible to obtain unauthorized, illegal, or harmful information in both ChatGPT and Gemini. We also introduce several ways of activating such adversarial personas, showing that both chatbots are vulnerable to this attack. With the same principle, we introduce two defenses that push the model to interpret trustworthy personalities and make it more robust against such attacks.
- Abstract(参考訳): 最近、チャットボットのようなアプリケーションで、LLM(Large Language Models)の使用が増加しています。
これらのチャットボットからの不適切な応答を防ぐために安全機構が実装されている。
本研究では,ChatGPT と Gemini に対するこれらの対策を回避し,誠実なアシスタントと整合しない人格特性を持つ複雑なペルソナを具体化する。
まず、これらのペルソナの詳細な伝記を作成し、それから同じチャットボットで新しいセッションで使用します。
会話は、禁止された応答を引き出すロールプレイスタイルに従う。
ペルソナを用いて、禁止された応答が提供され、ChatGPTとGeminiの両方において、不正、違法、有害な情報を得ることができることを示す。
また、このような敵対的ペルソナを活性化する方法をいくつか導入し、どちらのチャットボットもこの攻撃に対して脆弱であることを示す。
同じ原則で、モデルに信頼に値する個人性を解釈させ、そのような攻撃に対してより堅牢にする2つの防衛法を導入する。
関連論文リスト
- LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
LLM-Roleplayは、人間とチャットボットの相互作用をシミュレートする多様なマルチターン対話を自動的に生成する、目標指向のペルソナベースの手法である。
我々は、異なる社会デマログラフグループから自然な人間-チャットボット対話を収集し、実際の人間-チャットボット対話と生成された対話を比較し、人間の評価を行う。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Exploring Backdoor Vulnerabilities of Chat Models [31.802374847226393]
近年の研究では、LLM(Large Language Models)がバックドアアタック(Backdoor Attack)と呼ばれるセキュリティの脅威を受けやすいことが示されている。
本稿では,異なるラウンドのユーザ入力に対して複数のトリガシナリオを分散することで,チャットモデルに対する新たなバックドア攻撃手法を提案する。
実験により,チャットモデルの正常な性能を維持しつつ,高い攻撃成功率を達成できることが実証された。
論文 参考訳(メタデータ) (2024-04-03T02:16:53Z) - AbuseGPT: Abuse of Generative AI ChatBots to Create Smishing Campaigns [0.0]
本稿では,既存のAIベースのチャットボットが現実世界の攻撃者によってどのように悪用され,スマイシングテキストを作成するかを示すために,AbuseGPT法を提案する。
我々は、攻撃者が既存の生成AIベースのチャットボットサービスの倫理的基準を活用できることを示す強力な実証的証拠を発見した。
また、生成AIベースのサービスの不正行為を保護するための今後の研究方針やガイドラインについても論じる。
論文 参考訳(メタデータ) (2024-02-15T05:49:22Z) - Critical Role of Artificially Intelligent Conversational Chatbot [0.0]
本稿では,ChatGPTの倫理的意味を学術的文脈に含めるシナリオについて考察する。
本稿では、不適切な使用を防止し、責任あるAIインタラクションを促進することを目的としたアーキテクチャソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-31T14:08:07Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Bot or Human? Detecting ChatGPT Imposters with A Single Question [29.231261118782925]
GPT-4のような大規模言語モデルは、最近、自然言語の理解と生成において印象的な能力を示した。
不正行為やサービス拒否攻撃など、悪意のある目的のために悪用される可能性があるという懸念がある。
単一問合せと応答による大規模言語モデル認証をオンラインで検出するFLAIRというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-10T19:09:24Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain
Chatbots [24.84440998820146]
本稿では,チャットボットの毒性を定量的に測定する。
一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。
そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文 参考訳(メタデータ) (2022-09-07T20:45:41Z) - Initiative Defense against Facial Manipulation [82.96864888025797]
本稿では,悪意あるユーザによって制御される顔操作モデルの性能を低下させるための,イニシアティブ・ディフェンスの新しい枠組みを提案する。
まず、サロゲートモデルを用いてターゲット操作モデルを模倣し、次に毒の摂動発生器を考案し、所望の毒を得る。
論文 参考訳(メタデータ) (2021-12-19T09:42:28Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。