論文の概要: Beyond Jailbreak: Unveiling Risks in LLM Applications Arising from Blurred Capability Boundaries
- arxiv url: http://arxiv.org/abs/2511.17874v1
- Date: Sat, 22 Nov 2025 02:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.487018
- Title: Beyond Jailbreak: Unveiling Risks in LLM Applications Arising from Blurred Capability Boundaries
- Title(参考訳): Beyond Jailbreak: 脆弱な機能境界から生じるLLMアプリケーションの脆弱性
- Authors: Yunyi Zhang, Shibo Cui, Baojun Liu, Jingkai Yu, Min Zhang, Fan Shi, Han Zheng,
- Abstract要約: 本稿では,新しい開発パラダイムを体系的に分析し,LLMアプリケーション機能空間の概念を定義した。
また、現実のシナリオにおける曖昧な機能境界から生じる、脱獄以外の潜在的な新たなリスクも発見しました。
15以上のシナリオからタスクを実行するか、悪意のある178のアプリケーションを特定しました。
- 参考スコア(独自算出の注目度): 22.090424087851897
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM applications (i.e., LLM apps) leverage the powerful capabilities of LLMs to provide users with customized services, revolutionizing traditional application development. While the increasing prevalence of LLM-powered applications provides users with unprecedented convenience, it also brings forth new security challenges. For such an emerging ecosystem, the security community lacks sufficient understanding of the LLM application ecosystem, especially regarding the capability boundaries of the applications themselves. In this paper, we systematically analyzed the new development paradigm and defined the concept of the LLM app capability space. We also uncovered potential new risks beyond jailbreak that arise from ambiguous capability boundaries in real-world scenarios, namely, capability downgrade and upgrade. To evaluate the impact of these risks, we designed and implemented an LLM app capability evaluation framework, LLMApp-Eval. First, we collected application metadata across 4 platforms and conducted a cross-platform ecosystem analysis. Then, we evaluated the risks for 199 popular applications among 4 platforms and 6 open-source LLMs. We identified that 178 (89.45%) potentially affected applications, which can perform tasks from more than 15 scenarios or be malicious. We even found 17 applications in our study that executed malicious tasks directly, without applying any adversarial rewriting. Furthermore, our experiments also reveal a positive correlation between the quality of prompt design and application robustness. We found that well-designed prompts enhance security, while poorly designed ones can facilitate abuse. We hope our work inspires the community to focus on the real-world risks of LLM applications and foster the development of a more robust LLM application ecosystem.
- Abstract(参考訳): LLMアプリケーション(LLMアプリケーション)は、LLMの強力な機能を活用して、ユーザがカスタマイズされたサービスを提供し、従来のアプリケーション開発に革命をもたらす。
LLMによるアプリケーションの普及は、前例のない利便性を提供する一方で、新たなセキュリティ課題も生み出している。
このような新興エコシステムにとって、セキュリティコミュニティは、特にアプリケーション自体の能力境界に関して、LLMアプリケーションエコシステムに対する十分な理解を欠いている。
本稿では,新しい開発パラダイムを体系的に分析し,LLMアプリケーション機能空間の概念を定義した。
私たちはまた、現実のシナリオにおけるあいまいな機能境界、すなわち能力低下とアップグレードから生じる、脱獄以外の潜在的な新たなリスクを明らかにしました。
これらのリスクの影響を評価するため,LLMアプリケーション機能評価フレームワーク LLMApp-Eval を設計,実装した。
まず、4つのプラットフォームにまたがるアプリケーションメタデータを収集し、クロスプラットフォームエコシステム分析を実施しました。
そして、4つのプラットフォームと6つのオープンソース LLM で199の人気のアプリケーションのリスクを評価した。
我々は178人(89.45%)が潜在的に影響のあるアプリケーションであると確認した。
悪質なタスクを直接実行し、敵対的な書き直しを行なわなくても、私たちの研究で17のアプリケーションを見つけました。
さらに,本実験では,迅速な設計の質とロバスト性との正の相関も明らかにした。
十分に設計されたプロンプトはセキュリティを強化し、設計が不十分なプロンプトは悪用を促進することがわかりました。
LLMアプリケーションの現実的なリスクに注力し、より堅牢なLLMアプリケーションエコシステムの開発を促進することを願っています。
関連論文リスト
- Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Large Language Model Supply Chain: Open Problems From the Security Perspective [25.320736806895976]
大規模言語モデル(LLM)はソフトウェア開発パラダイムを変えつつあり、学術と産業の両方から大きな注目を集めています。
各コンポーネントの潜在的なセキュリティリスクとLCM SCのコンポーネント間の統合について議論する第一歩を踏み出します。
論文 参考訳(メタデータ) (2024-11-03T15:20:21Z) - On the (In)Security of LLM App Stores [5.667013605202579]
本研究では,LLMアプリの潜在的なセキュリティリスクを特定するための3層懸念フレームワークを提案する。
本研究は,静的および動的解析,大規模有毒単語辞書の開発,自動監視ツールを統合した。
15,146のアプリが誤解を招く説明をし、1,366件の個人情報をプライバシーポリシーに対して収集し、15,996件の有害なコンテンツを生成した。
論文 参考訳(メタデータ) (2024-07-11T12:03:32Z) - Human-Imperceptible Retrieval Poisoning Attacks in LLM-Powered Applications [10.06789804722156]
我々は,攻撃者がRAGプロセス中に悪意のある応答を誘導する,検索中毒と呼ばれるLSMベースのアプリケーションに対する新たな脅威を明らかにした。
我々の予備実験は、攻撃者が88.33%の成功率でLLMを誤解させ、実世界のアプリケーションで66.67%の成功率を達成することを示唆している。
論文 参考訳(メタデータ) (2024-04-26T07:11:18Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - A New Era in LLM Security: Exploring Security Concerns in Real-World
LLM-based Systems [47.18371401090435]
我々は,LLMではなく,Large Language Model(LLM)システムのセキュリティを分析する。
我々は,多層・多段階のアプローチを提案し,これを最先端のOpenAI GPT4に適用する。
OpenAI GPT4は安全機能を改善するために多くの安全制約を設計しているが、これらの安全制約は攻撃者に対して脆弱である。
論文 参考訳(メタデータ) (2024-02-28T19:00:12Z) - Identifying and Mitigating Vulnerabilities in LLM-Integrated
Applications [37.316238236750415]
LLM統合アプリケーションのバックエンドとして,大規模言語モデル(LLM)がますます多くデプロイされている。
本研究では,ユーザとLLMがLLM統合アプリケーションを介して,中間で対話する環境について考察する。
悪意のあるアプリケーション開発者や外部からの脅威から生じる可能性のある潜在的な脆弱性を特定します。
我々は、内部の脅威と外部の脅威の両方を緩和する軽量で脅威に依存しない防御を開発する。
論文 参考訳(メタデータ) (2023-11-07T20:13:05Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。