論文の概要: Is On-Device AI Broken and Exploitable? Assessing the Trust and Ethics in Small Language Models
- arxiv url: http://arxiv.org/abs/2406.05364v2
- Date: Wed, 05 Mar 2025 04:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:49:40.159857
- Title: Is On-Device AI Broken and Exploitable? Assessing the Trust and Ethics in Small Language Models
- Title(参考訳): オンデバイスAIは破壊され、爆発可能か? : 小さな言語モデルにおける信頼と倫理の評価
- Authors: Kalyan Nakka, Jimmy Dani, Nitesh Saxena,
- Abstract要約: オンデバイス人工知能(AI)の信頼性と倫理的意味を調査するための第1報について述べる。
以上の結果から,デバイス上のSLMは信頼性が著しく低く,特にステレオタイプ,不公平,プライバシブリーチング行動が顕著であることがわかった。
本研究は、デバイス上でのSLMの倫理的保護が欠如していることを示し、有害なコンテンツを生成する能力を強調した。
- 参考スコア(独自算出の注目度): 1.5953412143328967
- License:
- Abstract: In this paper, we present a very first study to investigate trust and ethical implications of on-device artificial intelligence (AI), focusing on small language models (SLMs) amenable for personal devices like smartphones. While on-device SLMs promise enhanced privacy, reduced latency, and improved user experience compared to cloud-based services, we posit that they might also introduce significant risks and vulnerabilities compared to their on-server counterparts. As part of our trust assessment study, we conduct a systematic evaluation of the state-of-the-art on-devices SLMs, contrasted to their on-server counterparts, based on a well-established trustworthiness measurement framework. Our results show on-device SLMs to be significantly less trustworthy, specifically demonstrating more stereotypical, unfair and privacy-breaching behavior. Informed by these findings, we then perform our ethics assessment study using a dataset of unethical questions, that depicts harmful scenarios. Our results illustrate the lacking ethical safeguards in on-device SLMs, emphasizing their capabilities of generating harmful content. Further, the broken safeguards and exploitable nature of on-device SLMs is demonstrated using potentially unethical vanilla prompts, to which the on-device SLMs answer with valid responses without any filters and without the need for any jailbreaking or prompt engineering. These responses can be abused for various harmful and unethical scenarios like: societal harm, illegal activities, hate, self-harm, exploitable phishing content and many others, all of which indicates the severe vulnerability and exploitability of these on-device SLMs.
- Abstract(参考訳): 本稿では,スマートフォンなどのパーソナルデバイスで使用可能な小型言語モデル(SLM)に着目し,デバイス上での人工知能(AI)の信頼性と倫理的意味を調査する。
デバイス上のSLMは、プライバシの向上、レイテンシの削減、クラウドベースのサービスと比較してユーザエクスペリエンスの向上を約束しますが、サーバ上のサービスと比較して、重大なリスクや脆弱性も導入する可能性もあります。
信頼度評価研究の一環として,信頼度測定の枠組みを基礎として,現状のデバイスオンデバイスSLMを,サーバ上のSLMと対比して体系的に評価する。
以上の結果から,デバイス上のSLMは信頼性が著しく低く,特にステレオタイプ,不公平,プライバシブリーチング行動が顕著であることがわかった。
これらの知見により、有害なシナリオを描写した非倫理的質問のデータセットを用いて倫理評価研究を行う。
本研究は、デバイス上でのSLMの倫理的保護が欠如していることを示し、有害なコンテンツを生成する能力を強調した。
さらに、デバイス上のSLMの壊れた安全と悪用可能な性質は、潜在的に非倫理的なバニラプロンプトを用いて実証され、デバイス上のSLMは、フィルタなしで、ジェイルブレイクやプロンプトエンジニアリングを必要とせず、有効な応答で応答する。
これらの反応は、社会的害、違法な活動、憎悪、自己害、悪用可能なフィッシングコンテンツなど、様々な有害で非倫理的なシナリオに対して悪用されうる。
関連論文リスト
- Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。
我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - VMGuard: Reputation-Based Incentive Mechanism for Poisoning Attack Detection in Vehicular Metaverse [52.57251742991769]
車両メタバースガード(VMGuard)は、車両メタバースシステムをデータ中毒攻撃から保護する。
VMGuardは、参加するSIoTデバイスの信頼性を評価するために、評判に基づくインセンティブメカニズムを実装している。
当社のシステムは,従来は誤分類されていた信頼性の高いSIoTデバイスが,今後の市場ラウンドへの参加を禁止していないことを保証します。
論文 参考訳(メタデータ) (2024-12-05T17:08:20Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Is Your Kettle Smarter Than a Hacker? A Scalable Tool for Assessing Replay Attack Vulnerabilities on Consumer IoT Devices [1.5612101323427952]
ENISAとNISTのセキュリティガイドラインは、安全と信頼性のためのデフォルトのローカル通信を可能にすることの重要性を強調している。
我々はREPLIOTというツールを提案し、ターゲットデバイスについて事前の知識を必要とせずに、リプレイ攻撃が成功したかどうかを検証できる。
残りの75%のデバイスは、検出精度0.98-1のREPLIOTによるリプレイ攻撃に対して脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-01-22T18:24:41Z) - The Ethics of Interaction: Mitigating Security Threats in LLMs [1.407080246204282]
この論文は、社会や個人のプライバシに対するこのようなセキュリティ上の脅威に対する、倫理的な悪影響について論じている。
われわれは、プロンプト注入、ジェイルブレイク、個人識別情報(PII)露出、性的に明示的なコンテンツ、ヘイトベースのコンテンツという5つの主要な脅威を精査し、彼らの批判的な倫理的結果と、彼らが堅牢な戦略戦略のために作り出した緊急性を評価する。
論文 参考訳(メタデータ) (2024-01-22T17:11:37Z) - A Novel IoT Trust Model Leveraging Fully Distributed Behavioral
Fingerprinting and Secure Delegation [3.10770247120758]
IoT(Internet of Things)ソリューションは、データ収集と処理を容易にするために、急激な需要を実験している。
自律的な方法で提供される新機能やサービスの数が増えるほど、ユーザをデータハッキングや損失に晒す攻撃面が大きくなる。
そこで本稿では, スマートなものの装備に関する非自明な問題に対処し, 隣人を通じて, ネットワーク内のオブジェクトの信頼性を, 対話前に評価する戦略を提示する。
論文 参考訳(メタデータ) (2023-10-02T07:45:49Z) - Getting pwn'd by AI: Penetration Testing with Large Language Models [0.0]
本稿では,GPT3.5のような大規模言語モデルによるAIスパーリングパートナーによる浸透テストの強化の可能性について検討する。
セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。
論文 参考訳(メタデータ) (2023-07-24T19:59:22Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。