論文の概要: Is On-Device AI Broken and Exploitable? Assessing the Trust and Ethics in Small Language Models
- arxiv url: http://arxiv.org/abs/2406.05364v1
- Date: Sat, 8 Jun 2024 05:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 20:04:51.649493
- Title: Is On-Device AI Broken and Exploitable? Assessing the Trust and Ethics in Small Language Models
- Title(参考訳): オンデバイスAIは破壊され、爆発可能か? : 小さな言語モデルにおける信頼と倫理の評価
- Authors: Kalyan Nakka, Jimmy Dani, Nitesh Saxena,
- Abstract要約: オンデバイス人工知能(AI)の信頼性と倫理的意味を調査するための第1報について述べる。
スマートフォンのようなパーソナルデバイスで使用可能な「小さい」言語モデル(SLM)に焦点を当てる。
以上の結果から,デバイス上のSLMは信頼性が著しく低く,特にステレオタイプ,不公平,プライバシブリーチング行動が顕著であることがわかった。
- 参考スコア(独自算出の注目度): 1.5953412143328967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a very first study to investigate trust and ethical implications of on-device artificial intelligence (AI), focusing on ''small'' language models (SLMs) amenable for personal devices like smartphones. While on-device SLMs promise enhanced privacy, reduced latency, and improved user experience compared to cloud-based services, we posit that they might also introduce significant challenges and vulnerabilities compared to on-server counterparts. As part of our trust assessment study, we conduct a systematic evaluation of the state-of-the-art on-devices SLMs, contrasted to their on-server counterparts, based on a well-established trustworthiness measurement framework. Our results show on-device SLMs to be (statistically) significantly less trustworthy, specifically demonstrating more stereotypical, unfair and privacy-breaching behavior. Informed by these findings, we then perform our ethics assessment study by inferring whether SLMs would provide responses to potentially unethical vanilla prompts, collated from prior jailbreaking and prompt engineering studies and other sources. Strikingly, the on-device SLMs did answer valid responses to these prompts, which ideally should be rejected. Even more seriously, the on-device SLMs responded with valid answers without any filters and without the need for any jailbreaking or prompt engineering. These responses can be abused for various harmful and unethical scenarios including: societal harm, illegal activities, hate, self-harm, exploitable phishing content and exploitable code, all of which indicates the high vulnerability and exploitability of these on-device SLMs. Overall, our findings highlight gaping vulnerabilities in state-of-the-art on-device AI which seem to stem from resource constraints faced by these models and which may make typical defenses fundamentally challenging to be deployed in these environments.
- Abstract(参考訳): 本稿では,スマートフォンなどのパーソナルデバイスで使用可能な「小型」言語モデル(SLM)に着目し,デバイス上での人工知能(AI)の信頼性と倫理的意味を初めて研究する。
デバイス上のSLMは、クラウドベースのサービスと比較して、プライバシの向上、レイテンシの削減、ユーザエクスペリエンスの向上を約束していますが、サーバ上のサービスと比較して、重大な課題や脆弱性も導入する可能性もあります。
信頼度評価研究の一環として,信頼度測定の枠組みを基礎として,現状のデバイスオンデバイスSLMを,サーバ上のSLMと対比して体系的に評価する。
以上の結果から、デバイス上のSLMは(統計的に)信頼性が著しく低く、特にステレオタイプ、不公平、プライバシー侵害の行動を示す。
これらの知見から, SLM が潜在的に非倫理的なバニラプロンプトに反応するかどうかを推定し, 事前の脱獄と工学的な研究などの資料を収集し, 倫理評価研究を行う。
興味深いことに、オンデバイスSLMはこれらのプロンプトに対する有効な応答に答えた。
さらに真剣なことに、デバイス上のSLMは、フィルターを使わずに、ジェイルブレイクやプロンプトエンジニアリングを必要とせず、有効な回答で応答した。
これらの反応は、社会的害、違法な活動、憎悪、自己害、悪用可能なフィッシングコンテンツ、悪用可能なコードなど、様々な有害で非倫理的なシナリオで悪用され得る。
全体としては、これらのモデルが直面しているリソースの制約に起因していると思われる、最先端のオンデバイスAIにおける脆弱性の欠如に注目しています。
関連論文リスト
- In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Is Your Kettle Smarter Than a Hacker? A Scalable Tool for Assessing Replay Attack Vulnerabilities on Consumer IoT Devices [1.5612101323427952]
ENISAとNISTのセキュリティガイドラインは、安全と信頼性のためのデフォルトのローカル通信を可能にすることの重要性を強調している。
我々はREPLIOTというツールを提案し、ターゲットデバイスについて事前の知識を必要とせずに、リプレイ攻撃が成功したかどうかを検証できる。
残りの75%のデバイスは、検出精度0.98-1のREPLIOTによるリプレイ攻撃に対して脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-01-22T18:24:41Z) - The Ethics of Interaction: Mitigating Security Threats in LLMs [1.407080246204282]
この論文は、社会や個人のプライバシに対するこのようなセキュリティ上の脅威に対する、倫理的な悪影響について論じている。
われわれは、プロンプト注入、ジェイルブレイク、個人識別情報(PII)露出、性的に明示的なコンテンツ、ヘイトベースのコンテンツという5つの主要な脅威を精査し、彼らの批判的な倫理的結果と、彼らが堅牢な戦略戦略のために作り出した緊急性を評価する。
論文 参考訳(メタデータ) (2024-01-22T17:11:37Z) - A Novel IoT Trust Model Leveraging Fully Distributed Behavioral
Fingerprinting and Secure Delegation [3.10770247120758]
IoT(Internet of Things)ソリューションは、データ収集と処理を容易にするために、急激な需要を実験している。
自律的な方法で提供される新機能やサービスの数が増えるほど、ユーザをデータハッキングや損失に晒す攻撃面が大きくなる。
そこで本稿では, スマートなものの装備に関する非自明な問題に対処し, 隣人を通じて, ネットワーク内のオブジェクトの信頼性を, 対話前に評価する戦略を提示する。
論文 参考訳(メタデータ) (2023-10-02T07:45:49Z) - Vulnerability of Machine Learning Approaches Applied in IoT-based Smart Grid: A Review [51.31851488650698]
機械学習(ML)は、IoT(Internet-of-Things)ベースのスマートグリッドでの使用頻度が高まっている。
電力信号に注入された逆方向の歪みは システムの正常な制御と操作に大きな影響を及ぼす
安全クリティカルパワーシステムに適用されたMLsgAPPの脆弱性評価を行うことが不可欠である。
論文 参考訳(メタデータ) (2023-08-30T03:29:26Z) - Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。
セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文 参考訳(メタデータ) (2023-07-24T19:59:22Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。