論文の概要: Dr. Jekyll and Mr. Hyde: Two Faces of LLMs
- arxiv url: http://arxiv.org/abs/2312.03853v2
- Date: Wed, 13 Mar 2024 14:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:58:31.532695
- Title: Dr. Jekyll and Mr. Hyde: Two Faces of LLMs
- Title(参考訳): Dr. JekyllとMr. Hyde: LLMの2つの顔
- Authors: Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro
Conti, Stjepan Picek
- Abstract要約: この研究は、敵対的ペルソナを使用することで、ChatGPTとBardによって設定された安全メカニズムを克服できることを示している。
同じ原則で、信頼に値する個性を理解するためにモデルを推し進める2つの防衛法を導入する。
- 参考スコア(独自算出の注目度): 25.134723977429076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Only a year ago, we witnessed a rise in the use of Large Language Models
(LLMs), especially when combined with applications like chatbot assistants.
Safety mechanisms and specialized training procedures are implemented to
prevent improper responses from these assistants. In this work, we bypass these
measures for ChatGPT and Bard (and, to some extent, Bing chat) by making them
impersonate complex personas with opposite characteristics as those of the
truthful assistants they are supposed to be. We start by creating elaborate
biographies of these personas, which we then use in a new session with the same
chatbots. Our conversation followed a role-play style to get the response the
assistant was not allowed to provide. By making use of personas, we show that
the response that is prohibited is actually provided, making it possible to
obtain unauthorized, illegal, or harmful information. This work shows that by
using adversarial personas, one can overcome safety mechanisms set out by
ChatGPT and Bard. We also introduce several ways of activating such adversarial
personas, altogether showing that both chatbots are vulnerable to this kind of
attack. With the same principle, we introduce two defenses that push the model
to interpret trustworthy personalities and make it more robust against such
attacks.
- Abstract(参考訳): わずか1年前、チャットボットアシスタントのようなアプリケーションと組み合わせることで、LLM(Large Language Models)の利用が増加したのを目撃しました。
これらのアシスタントからの不適切な応答を防止するため、安全機構と特別な訓練手順が実施されている。
本研究は,ChatGPTとBard(ある程度はBingチャット)に対するこれらの対策を回避し,それらが想定される真正なアシスタントと反対の性格を持つ複雑なペルソナを対人化させることによって実現した。
まず、これらのペルソナの精巧な伝記を作成し、それから同じチャットボットで新しいセッションで使用します。
私たちの会話は、アシスタントが提供できない応答を得るためにロールプレイスタイルに従いました。
ペルソナを利用することで、禁止されている応答が実際に提供され、不正、違法、有害な情報を得ることができることを示す。
この研究は、敵対的ペルソナを使用することで、ChatGPTとBardによって設定された安全メカニズムを克服できることを示している。
我々はまた、このような敵対的なペルソナを活性化する方法をいくつか導入し、両方のチャットボットがこの種の攻撃に対して脆弱であることを示す。
同じ原則で、モデルに信頼に値する個人性を解釈させ、そのような攻撃に対してより堅牢にする2つの防衛法を導入する。
関連論文リスト
- A Piece of Theatre: Investigating How Teachers Design LLM Chatbots to
Assist Adolescent Cyberbullying Education [19.382793802653847]
大規模言語モデルと即時連鎖により,教師は対話フローのプロトタイプを作成できる。
調査の結果,教師が熱心にツールを歓迎していることが判明した。
彼らの目標は、学生が安全な環境でのサイバーいじめに対する望ましい反応と望ましくない反応の両方をリハーサルできるようにすることである。
論文 参考訳(メタデータ) (2024-02-27T12:27:51Z) - AbuseGPT: Abuse of Generative AI ChatBots to Create Smishing Campaigns [0.0]
本稿では,既存のAIベースのチャットボットが現実世界の攻撃者によってどのように悪用され,スマイシングテキストを作成するかを示すために,AbuseGPT法を提案する。
我々は、攻撃者が既存の生成AIベースのチャットボットサービスの倫理的基準を活用できることを示す強力な実証的証拠を発見した。
また、生成AIベースのサービスの不正行為を保護するための今後の研究方針やガイドラインについても論じる。
論文 参考訳(メタデータ) (2024-02-15T05:49:22Z) - Measuring and Controlling Persona Drift in Language Model Dialogs [75.97202858893111]
パーソナライズされた2つのチャットボット間のセルフチャットによりペルソナの安定性を評価する。
8ラウンドの会話で大きなペルソナの漂流が明らかになりました。
この現象の実証的および理論的解析は、トランスフォーマーの注意機構が役割を果たすことを示唆している。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - Critical Role of Artificially Intelligent Conversational Chatbot [0.0]
本稿では,ChatGPTの倫理的意味を学術的文脈に含めるシナリオについて考察する。
本稿では、不適切な使用を防止し、責任あるAIインタラクションを促進することを目的としたアーキテクチャソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-31T14:08:07Z) - How Robust is Google's Bard to Adversarial Image Attacks? [45.92999116520135]
テキストや他のモダリティ(特に視覚)を統合するマルチモーダル大規模言語モデル(MLLM)は、様々なマルチモーダルタスクにおいて前例のない性能を達成している。
しかし、ビジョンモデルの非解決対向ロバスト性問題により、MLLMはより厳しい安全性とセキュリティリスクを負う可能性がある。
商用MLLMの脆弱性をよりよく理解するために,GoogleのBardの対角的堅牢性について検討する。
論文 参考訳(メタデータ) (2023-09-21T03:24:30Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Bot or Human? Detecting ChatGPT Imposters with A Single Question [20.72291342225339]
ChatGPTのような大規模な言語モデルは、最近、自然言語の理解と生成において印象的な能力を示した。
不正行為やサービス拒否攻撃など、悪意のある目的のために悪用される可能性があるという懸念がある。
本研究では,対話型ボットをオンラインで検出するためのフレームワークFLAIR, Finding Large Language Model Authenticityを提案する。
論文 参考訳(メタデータ) (2023-05-10T19:09:24Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain
Chatbots [24.84440998820146]
本稿では,チャットボットの毒性を定量的に測定する。
一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。
そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文 参考訳(メタデータ) (2022-09-07T20:45:41Z) - Adversarial Defense for Automatic Speaker Verification by
Self-Supervised Learning [101.42920161993455]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。