論文の概要: Security Concerns for Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2505.18889v4
- Date: Wed, 20 Aug 2025 17:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 14:45:44.633694
- Title: Security Concerns for Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルのセキュリティに関する調査
- Authors: Miles Q. Li, Benjamin C. M. Fung,
- Abstract要約: 大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。
この調査は、脅威をいくつかの重要な領域に分類する、これらの新興懸念の包括的概要を提供する。
LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
- 参考スコア(独自算出の注目度): 3.175227858236288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) such as ChatGPT and its competitors have caused a revolution in natural language processing, but their capabilities also introduce new security vulnerabilities. This survey provides a comprehensive overview of these emerging concerns, categorizing threats into several key areas: prompt injection and jailbreaking; adversarial attacks, including input perturbations and data poisoning; misuse by malicious actors to generate disinformation, phishing emails, and malware; and the worrisome risks inherent in autonomous LLM agents. Recently, a significant focus is increasingly being placed on the latter, exploring goal misalignment, emergent deception, self-preservation instincts, and the potential for LLMs to develop and pursue covert, misaligned objectives, a behavior known as scheming, which may even persist through safety training. We summarize recent academic and industrial studies from 2022 to 2025 that exemplify each threat, analyze proposed defenses and their limitations, and identify open challenges in securing LLM-based applications. We conclude by emphasizing the importance of advancing robust, multi-layered security strategies to ensure LLMs are safe and beneficial.
- Abstract(参考訳): ChatGPTなどの大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。
この調査は、脅威をいくつかの重要な領域に分類する: 迅速な注射と脱獄、入力の摂動やデータ中毒を含む敵の攻撃、悪意のあるアクターによる偽情報、フィッシングメール、マルウェアの生成への誤用、そして自律的なLLMエージェントに固有の恐ろしいリスク。
近年, 目標の不一致, 創発的虚偽, 自己保存本能, LLM が包括的かつ不整合な目標を開発・追求する可能性など, 安全訓練を通じて継続する「スキー」と呼ばれる行動など, 後者に注目が集まっている。
我々は、2022年から2025年までの最近の学術・産業研究を要約し、それぞれの脅威を実証し、提案された防衛とその制限を分析し、LLMベースのアプリケーションを保護するためのオープンな課題を特定した。
LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
関連論文リスト
- A Survey of Attacks on Large Language Models [5.845689496906739]
大規模言語モデル(LLM)とLLMベースのエージェントは、現実世界の幅広いアプリケーションに広くデプロイされている。
本稿では, LLM および LLM ベースのエージェントを標的とした敵攻撃の詳細を体系的に概説する。
論文 参考訳(メタデータ) (2025-05-18T22:55:16Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Emerging Security Challenges of Large Language Models [6.151633954305939]
大規模言語モデル(LLM)は、多くの異なる分野において短期間で記録的な普及を遂げた。
これらは、特定の下流タスクに合わせて調整されることなく、多様なデータでトレーニングされたオープンエンドモデルである。
従来の機械学習(ML)モデルは、敵の攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-12-23T14:36:37Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - Recent Advances in Attack and Defense Approaches of Large Language Models [27.271665614205034]
大規模言語モデル(LLM)は、高度なテキスト処理と生成機能を通じて、人工知能と機械学習に革命をもたらした。
彼らの広範な展開は、重大な安全性と信頼性の懸念を引き起こした。
本稿は,LLMの脆弱性と脅威に関する最近の研究をレビューし,現代防衛機構の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-05T06:31:37Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。
LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文 参考訳(メタデータ) (2024-05-08T02:09:17Z) - Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices [4.593170087121314]
大規模言語モデル(LLM)は、自然言語処理(NLP)のランドスケープを大きく変えた。
本研究は,5つのテーマの観点から,LLMに関するセキュリティとプライバシの懸念を徹底的に調査する。
本稿は, LLMの安全性とリスク管理を強化するために, 今後の研究に期待できる道筋を提案する。
論文 参考訳(メタデータ) (2024-03-19T07:10:58Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z) - Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and
Vulnerabilities [14.684194175806203]
大規模言語モデル(LLM)は詐欺、偽造、マルウェアの発生に誤用されることがある。
本稿では,LSMの生成能力による脅威と,そのような脅威に対処するための予防措置と,不完全な予防措置に起因する脆弱性との関係を分類する。
論文 参考訳(メタデータ) (2023-08-24T14:45:50Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。