論文の概要: Dr. Jekyll and Mr. Hyde: Two Faces of LLMs
- arxiv url: http://arxiv.org/abs/2312.03853v1
- Date: Wed, 6 Dec 2023 19:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:03:21.204279
- Title: Dr. Jekyll and Mr. Hyde: Two Faces of LLMs
- Title(参考訳): Dr. JekyllとMr. Hyde: LLMの2つの顔
- Authors: Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro
Conti, Stjepan Picek
- Abstract要約: この研究は、敵対的ペルソナを使用することで、ChatGPTとBardによって設定された安全メカニズムを克服できることを示している。
また、このような敵対的なペルソナを活性化する方法もいくつか導入されており、どちらのチャットボットもこの種の攻撃に対して脆弱であることを示している。
- 参考スコア(独自算出の注目度): 25.134723977429076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This year, we witnessed a rise in the use of Large Language Models,
especially when combined with applications like chatbot assistants. Safety
mechanisms and specialized training procedures are put in place to prevent
improper responses from these assistants. In this work, we bypass these
measures for ChatGPT and Bard (and, to some extent, Bing chat) by making them
impersonate complex personas with opposite characteristics as those of the
truthful assistants they are supposed to be. We start by creating elaborate
biographies of these personas, which we then use in a new session with the same
chatbots. Our conversation followed a role-play style to get the response the
assistant was not allowed to provide. By making use of personas, we show that
the response that is prohibited is actually provided, making it possible to
obtain unauthorized, illegal, or harmful information. This work shows that by
using adversarial personas, one can overcome safety mechanisms set out by
ChatGPT and Bard. It also introduces several ways of activating such
adversarial personas, altogether showing that both chatbots are vulnerable to
this kind of attack.
- Abstract(参考訳): 今年は、特にチャットボットアシスタントのようなアプリケーションと組み合わせると、大きな言語モデルの使用が増加するのを目の当たりにした。
これらのアシスタントからの不適切な応答を防ぐために、安全機構と特別な訓練手順が設定されている。
この研究では、チャットgptとbard(そしてある程度はbing chat)に対するこれらの措置を回避し、それらが本来あるべき真理あるアシスタントと相反する特性を持つ複雑なパーソナラを擬人化する。
まずこれらのペルソナの詳細な伝記を作成し、それから同じチャットボットで新しいセッションで使用します。
私たちの会話は、アシスタントが提供できない応答を得るためにロールプレイスタイルに従いました。
ペルソナの利用により、禁止されている応答が実際に提供されることを示し、不正、違法、有害な情報を得ることを可能にする。
この研究は、敵対的ペルソナを使用することで、ChatGPTとBardによって設定された安全メカニズムを克服できることを示している。
また、このような敵対的なペルソナを活性化する方法もいくつか導入されており、どちらのチャットボットもこの種の攻撃に対して脆弱であることを示している。
関連論文リスト
- A Piece of Theatre: Investigating How Teachers Design LLM Chatbots to
Assist Adolescent Cyberbullying Education [19.382793802653847]
大規模言語モデルと即時連鎖により,教師は対話フローのプロトタイプを作成できる。
調査の結果,教師が熱心にツールを歓迎していることが判明した。
彼らの目標は、学生が安全な環境でのサイバーいじめに対する望ましい反応と望ましくない反応の両方をリハーサルできるようにすることである。
論文 参考訳(メタデータ) (2024-02-27T12:27:51Z) - AbuseGPT: Abuse of Generative AI ChatBots to Create Smishing Campaigns [0.0]
本稿では,既存のAIベースのチャットボットが現実世界の攻撃者によってどのように悪用され,スマイシングテキストを作成するかを示すために,AbuseGPT法を提案する。
我々は、攻撃者が既存の生成AIベースのチャットボットサービスの倫理的基準を活用できることを示す強力な実証的証拠を発見した。
また、生成AIベースのサービスの不正行為を保護するための今後の研究方針やガイドラインについても論じる。
論文 参考訳(メタデータ) (2024-02-15T05:49:22Z) - Critical Role of Artificially Intelligent Conversational Chatbot [0.0]
本稿では,ChatGPTの倫理的意味を学術的文脈に含めるシナリオについて考察する。
本稿では、不適切な使用を防止し、責任あるAIインタラクションを促進することを目的としたアーキテクチャソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-31T14:08:07Z) - How Robust is Google's Bard to Adversarial Image Attacks? [45.92999116520135]
テキストや他のモダリティ(特に視覚)を統合するマルチモーダル大規模言語モデル(MLLM)は、様々なマルチモーダルタスクにおいて前例のない性能を達成している。
しかし、ビジョンモデルの非解決対向ロバスト性問題により、MLLMはより厳しい安全性とセキュリティリスクを負う可能性がある。
商用MLLMの脆弱性をよりよく理解するために,GoogleのBardの対角的堅牢性について検討する。
論文 参考訳(メタデータ) (2023-09-21T03:24:30Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Bot or Human? Detecting ChatGPT Imposters with A Single Question [29.231261118782925]
GPT-4のような大規模言語モデルは、最近、自然言語の理解と生成において印象的な能力を示した。
不正行為やサービス拒否攻撃など、悪意のある目的のために悪用される可能性があるという懸念がある。
単一問合せと応答による大規模言語モデル認証をオンラインで検出するFLAIRというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-10T19:09:24Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain
Chatbots [24.84440998820146]
本稿では,チャットボットの毒性を定量的に測定する。
一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。
そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文 参考訳(メタデータ) (2022-09-07T20:45:41Z) - CheerBots: Chatbots toward Empathy and Emotionusing Reinforcement
Learning [60.348822346249854]
本研究では,複数の共感型チャットボットがユーザの暗黙の感情を理解し,複数の対話のターンに対して共感的に応答する枠組みを提案する。
チャットボットをCheerBotsと呼びます。CheerBotsは検索ベースまたは生成ベースで、深い強化学習によって微調整されます。
共感的態度で反応するため,CheerBotsの学習支援としてシミュレーションエージェントである概念人間モデルを開発し,今後のユーザの感情状態の変化を考慮し,共感を喚起する。
論文 参考訳(メタデータ) (2021-10-08T07:44:47Z) - Adversarial Defense for Automatic Speaker Verification by
Self-Supervised Learning [101.42920161993455]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。