論文の概要: Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles
- arxiv url: http://arxiv.org/abs/2311.14876v1
- Date: Fri, 24 Nov 2023 23:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 13:06:53.855154
- Title: Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles
- Title(参考訳): 認知技術と説得原理による大規模言語モデル(LLM)の爆発
- Authors: Sonali Singh, Faranak Abri, Akbar Siami Namin,
- Abstract要約: 大きな言語モデル(LLM)は広く使われるようになり、セキュリティと堅牢性を保証することが重要である。
本稿では,このような大規模言語モデルによる知覚的相互作用に対する活用に焦点を当てた新しい研究を提案する。
以上の結果から,これらの大規模言語モデルが詐欺や社会工学的攻撃の影響を受けやすいことが示唆された。
- 参考スコア(独自算出の注目度): 2.134057414078079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent advent of Large Language Models (LLMs), such as ChatGPT from OpenAI, BARD from Google, Llama2 from Meta, and Claude from Anthropic AI, gain widespread use, ensuring their security and robustness is critical. The widespread use of these language models heavily relies on their reliability and proper usage of this fascinating technology. It is crucial to thoroughly test these models to not only ensure its quality but also possible misuses of such models by potential adversaries for illegal activities such as hacking. This paper presents a novel study focusing on exploitation of such large language models against deceptive interactions. More specifically, the paper leverages widespread and borrows well-known techniques in deception theory to investigate whether these models are susceptible to deceitful interactions. This research aims not only to highlight these risks but also to pave the way for robust countermeasures that enhance the security and integrity of language models in the face of sophisticated social engineering tactics. Through systematic experiments and analysis, we assess their performance in these critical security domains. Our results demonstrate a significant finding in that these large language models are susceptible to deception and social engineering attacks.
- Abstract(参考訳): OpenAIのChatGPT、GoogleのBARD、MetaのLlama2、Arthropic AIのClaudeといった最近のLarge Language Models(LLMs)が登場し、広く利用されている。
これらの言語モデルの普及は、この魅力的な技術の信頼性と適切な利用に大きく依存している。
これらのモデルを徹底的にテストすることは、その品質を保証するだけでなく、ハッキングなどの違法な行為に対する潜在的な敵による、そのようなモデルの誤用も可能とする上で重要である。
本稿では,このような大規模言語モデルによる知覚的相互作用に対する活用に焦点を当てた新しい研究を提案する。
より具体的には、この論文は広く活用され、騙し理論のよく知られたテクニックを借りて、これらのモデルが騙し行為に感受性があるかどうかを調査する。
本研究の目的は、これらのリスクを強調するだけでなく、高度な社会工学的戦術に直面した言語モデルのセキュリティと整合性を高める堅牢な対策の道を開くことである。
系統的な実験と分析を通じて、これらの重要なセキュリティ領域におけるそれらの性能を評価する。
以上の結果から,これらの大規模言語モデルが詐欺や社会工学的攻撃の影響を受けやすいことが示唆された。
関連論文リスト
- Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。
本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文 参考訳(メタデータ) (2024-03-03T04:46:21Z) - A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models [20.40158210837289]
Vicuna, LLama, GPT-3.5 Turboの3つの異なる言語モデルに適用した9つの攻撃手法と7つの防御手法について検討した。
以上の結果から,既存のホワイトボックス攻撃は普遍的手法に比べて性能が低く,入力に特別なトークンを含むと,攻撃成功の可能性に大きな影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T01:26:39Z) - Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing
Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。
広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。
本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文 参考訳(メタデータ) (2024-01-27T08:09:33Z) - Towards more Practical Threat Models in Artificial Intelligence Security [66.67624011455423]
最近の研究で、人工知能のセキュリティの研究と実践のギャップが特定されている。
我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。
論文 参考訳(メタデータ) (2023-11-16T16:09:44Z) - Language Agents for Detecting Implicit Stereotypes in Text-to-image
Models at Scale [45.64096601242646]
テキスト・ツー・イメージモデルにおけるステレオタイプ検出に適した新しいエージェントアーキテクチャを提案する。
複数のオープンテキストデータセットに基づいたステレオタイプ関連ベンチマークを構築した。
これらのモデルは、個人的特性に関する特定のプロンプトに関して、深刻なステレオタイプを示すことが多い。
論文 参考訳(メタデータ) (2023-10-18T08:16:29Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Transformer-Based Language Models for Software Vulnerability Detection:
Performance, Model's Security and Platforms [21.943263073426646]
ソフトウェア脆弱性を検出する,大規模なトランスフォーマーベースの言語モデルについて検討する。
私たちはMicrosoftのコマンドラインツールであるCounterfitを使ってモデルのセキュリティチェックを行います。
これらの大きなモデルを実行するためのプラットフォームを選択しながら、推奨事項を提示します。
論文 参考訳(メタデータ) (2022-04-07T04:57:42Z) - Holistic Adversarial Robustness of Deep Learning Models [91.34155889052786]
敵対的堅牢性は、安全性と信頼性を確保するために、機械学習モデルの最悪のケースパフォーマンスを研究する。
本稿では,深層学習モデルの対角的ロバスト性に関する研究課題の概要と研究手法の基礎原則について概説する。
論文 参考訳(メタデータ) (2022-02-15T05:30:27Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。