論文の概要: Dr. Jekyll and Mr. Hyde: Two Faces of LLMs
- arxiv url: http://arxiv.org/abs/2312.03853v1
- Date: Wed, 6 Dec 2023 19:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:03:21.204279
- Title: Dr. Jekyll and Mr. Hyde: Two Faces of LLMs
- Title(参考訳): Dr. JekyllとMr. Hyde: LLMの2つの顔
- Authors: Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro
Conti, Stjepan Picek
- Abstract要約: この研究は、敵対的ペルソナを使用することで、ChatGPTとBardによって設定された安全メカニズムを克服できることを示している。
また、このような敵対的なペルソナを活性化する方法もいくつか導入されており、どちらのチャットボットもこの種の攻撃に対して脆弱であることを示している。
- 参考スコア(独自算出の注目度): 25.134723977429076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This year, we witnessed a rise in the use of Large Language Models,
especially when combined with applications like chatbot assistants. Safety
mechanisms and specialized training procedures are put in place to prevent
improper responses from these assistants. In this work, we bypass these
measures for ChatGPT and Bard (and, to some extent, Bing chat) by making them
impersonate complex personas with opposite characteristics as those of the
truthful assistants they are supposed to be. We start by creating elaborate
biographies of these personas, which we then use in a new session with the same
chatbots. Our conversation followed a role-play style to get the response the
assistant was not allowed to provide. By making use of personas, we show that
the response that is prohibited is actually provided, making it possible to
obtain unauthorized, illegal, or harmful information. This work shows that by
using adversarial personas, one can overcome safety mechanisms set out by
ChatGPT and Bard. It also introduces several ways of activating such
adversarial personas, altogether showing that both chatbots are vulnerable to
this kind of attack.
- Abstract(参考訳): 今年は、特にチャットボットアシスタントのようなアプリケーションと組み合わせると、大きな言語モデルの使用が増加するのを目の当たりにした。
これらのアシスタントからの不適切な応答を防ぐために、安全機構と特別な訓練手順が設定されている。
この研究では、チャットgptとbard(そしてある程度はbing chat)に対するこれらの措置を回避し、それらが本来あるべき真理あるアシスタントと相反する特性を持つ複雑なパーソナラを擬人化する。
まずこれらのペルソナの詳細な伝記を作成し、それから同じチャットボットで新しいセッションで使用します。
私たちの会話は、アシスタントが提供できない応答を得るためにロールプレイスタイルに従いました。
ペルソナの利用により、禁止されている応答が実際に提供されることを示し、不正、違法、有害な情報を得ることを可能にする。
この研究は、敵対的ペルソナを使用することで、ChatGPTとBardによって設定された安全メカニズムを克服できることを示している。
また、このような敵対的なペルソナを活性化する方法もいくつか導入されており、どちらのチャットボットもこの種の攻撃に対して脆弱であることを示している。
関連論文リスト
- First-Person Fairness in Chatbots [13.787745105316043]
ユーザに対する公平さを意味する「ファースト・パーソナライズ・フェアネス」について検討する。
これには、アイデンティティやバックグラウンドに関わらず、すべてのユーザに高品質なレスポンスを提供することが含まれる。
本稿では,一人称フェアネスの1つの側面を評価するための,スケーラブルなプライバシ保護手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T17:59:47Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - WildChat: 1M ChatGPT Interaction Logs in the Wild [88.05964311416717]
WildChatは100万件のユーザー・チャットGPT会話のコーパスで、250万回以上のインタラクション・ターンで構成されている。
タイムスタンプによるチャットの書き起こしに加えて、州、国、ハッシュIPアドレスを含む人口統計データでデータセットを豊かにします。
論文 参考訳(メタデータ) (2024-05-02T17:00:02Z) - AbuseGPT: Abuse of Generative AI ChatBots to Create Smishing Campaigns [0.0]
本稿では,既存のAIベースのチャットボットが現実世界の攻撃者によってどのように悪用され,スマイシングテキストを作成するかを示すために,AbuseGPT法を提案する。
我々は、攻撃者が既存の生成AIベースのチャットボットサービスの倫理的基準を活用できることを示す強力な実証的証拠を発見した。
また、生成AIベースのサービスの不正行為を保護するための今後の研究方針やガイドラインについても論じる。
論文 参考訳(メタデータ) (2024-02-15T05:49:22Z) - Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - Critical Role of Artificially Intelligent Conversational Chatbot [0.0]
本稿では,ChatGPTの倫理的意味を学術的文脈に含めるシナリオについて考察する。
本稿では、不適切な使用を防止し、責任あるAIインタラクションを促進することを目的としたアーキテクチャソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-31T14:08:07Z) - Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots [8.763670548363443]
新しい攻撃である毒物ボットは、多ターン会話において有毒な反応を生成するために開発された。
有害なボットは、産業と研究者の両方が会話における有害な反応を検出し緩和する方法を開発するために使用できる。
論文 参考訳(メタデータ) (2023-07-14T03:58:42Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain
Chatbots [24.84440998820146]
本稿では,チャットボットの毒性を定量的に測定する。
一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。
そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文 参考訳(メタデータ) (2022-09-07T20:45:41Z) - Neural Generation Meets Real People: Building a Social, Informative
Open-Domain Dialogue Agent [65.68144111226626]
Chirpy Cardinalは、情報と会話の両方をねらっている。
ユーザーとボットの両方を交互に会話に駆り立てる。
Chirpy Cardinalは、Alexa Prize Socialbot Grand Challengeで9つのボットのうち2位にランクインした。
論文 参考訳(メタデータ) (2022-07-25T09:57:23Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。