Fugu-MT 論文翻訳(概要): Detection and Defense Against Prominent Attacks on Preconditioned LLM-Integrated Virtual Assistants

論文の概要: Detection and Defense Against Prominent Attacks on Preconditioned LLM-Integrated Virtual Assistants

arxiv url: http://arxiv.org/abs/2401.00994v1
Date: Tue, 2 Jan 2024 02:11:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 12:57:08.111273
Title: Detection and Defense Against Prominent Attacks on Preconditioned LLM-Integrated Virtual Assistants
Title（参考訳）: プレコンディショニングLDMによる仮想アシスタントの攻撃検出と防御
Authors: Chun Fai Chan, Daniel Wankit Yip, Aysan Esmradi,
Abstract要約: 一部の開発者は、プリコンディショニングのためにシステムメッセージ(初期プロンプトまたはカスタムプロンプトとしても知られる)を活用することを好んでいる。このような悪意のある操作は重大な脅威となり、仮想アシスタントの応答の正確さと信頼性を損なう可能性がある。本研究では,システムメッセージを対象とした攻撃対策を目的とした3つの検知・防御機構について検討した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The emergence of LLM (Large Language Model) integrated virtual assistants has brought about a rapid transformation in communication dynamics. During virtual assistant development, some developers prefer to leverage the system message, also known as an initial prompt or custom prompt, for preconditioning purposes. However, it is important to recognize that an excessive reliance on this functionality raises the risk of manipulation by malicious actors who can exploit it with carefully crafted prompts. Such malicious manipulation poses a significant threat, potentially compromising the accuracy and reliability of the virtual assistant's responses. Consequently, safeguarding the virtual assistants with detection and defense mechanisms becomes of paramount importance to ensure their safety and integrity. In this study, we explored three detection and defense mechanisms aimed at countering attacks that target the system message. These mechanisms include inserting a reference key, utilizing an LLM evaluator, and implementing a Self-Reminder. To showcase the efficacy of these mechanisms, they were tested against prominent attack techniques. Our findings demonstrate that the investigated mechanisms are capable of accurately identifying and counteracting the attacks. The effectiveness of these mechanisms underscores their potential in safeguarding the integrity and reliability of virtual assistants, reinforcing the importance of their implementation in real-world scenarios. By prioritizing the security of virtual assistants, organizations can maintain user trust, preserve the integrity of the application, and uphold the high standards expected in this era of transformative technologies.
Abstract（参考訳）: LLM(Large Language Model)統合仮想アシスタントの出現は、通信力学の急速な変換をもたらした。仮想アシスタント開発において、一部の開発者はプリコンディショニングのためにシステムメッセージ(初期プロンプトまたはカスタムプロンプトとしても知られる)を活用することを好んでいる。しかし、この機能への過度な依存は、慎重に工夫したプロンプトで悪質な行為者による操作のリスクを高めることが重要である。このような悪意のある操作は重大な脅威となり、仮想アシスタントの応答の正確さと信頼性を損なう可能性がある。これにより、仮想アシスタントを検出・防御機構で保護することが、安全性と整合性を確保する上で最重要となる。本研究では,システムメッセージを対象とした攻撃対策を目的とした3つの検知・防御機構について検討した。これらのメカニズムには、参照キーの挿入、LLM評価器の利用、Self-Reminderの実装が含まれる。これらのメカニズムの有効性を示すために、これらのメカニズムは顕著な攻撃技術に対してテストされた。以上の結果から,本研究のメカニズムは攻撃を正確に識別し,対処することが可能であることが示唆された。これらのメカニズムの有効性は、仮想アシスタントの完全性と信頼性を保護し、現実のシナリオにおける実装の重要性を補強する可能性を示している。仮想アシスタントのセキュリティを優先することにより、組織はユーザの信頼を維持し、アプリケーションの完全性を維持し、この変革的技術の時代に期待される高い標準を維持できる。

関連論文リスト

Thought Purity: Defense Paradigm For Chain-of-Thought Attack [14.92561128881555]
本稿では、悪意のあるコンテンツに対する抵抗性を高めつつ、運用効果を保ちながら、防御パラダイムであるThought Purityを提案する。本手法は,強化学習型推論システムにおけるCoTA脆弱性に対する最初の包括的防御機構を確立する。
論文参考訳（メタデータ） (2025-07-16T15:09:13Z)
LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。 AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文参考訳（メタデータ） (2025-05-29T21:39:08Z)
Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文参考訳（メタデータ） (2025-04-01T05:58:14Z)
DrunkAgent: Stealthy Memory Corruption in LLM-Powered Recommender Agents [28.294322726282896]
大規模言語モデル(LLM)を利用したエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(RS)でますます使われている。本稿では,LSMを用いたリコメンデータエージェントにおけるメモリベースの脆弱性について,初めて体系的に検討する。我々は,意味論的に意味のある敵の引き金を発生させる新しいブラックボックス攻撃フレームワークDrunkAgentを提案する。
論文参考訳（メタデータ） (2025-03-31T07:35:40Z)
Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文参考訳（メタデータ） (2025-03-14T17:39:45Z)
Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,LLM生成プロセスにクエリとレスポンスの安全反射を統合する新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。 R2Dは様々な攻撃を効果的に軽減し、全体的な安全性を改善し、LLMのジェイルブレイクに対する堅牢性を強化する上での安全性を意識した推論の可能性を強調している。
論文参考訳（メタデータ） (2025-02-18T15:48:46Z)
Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文参考訳（メタデータ） (2024-11-21T08:20:31Z)
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [70.93622520400385]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。本研究では,ロボット行動の不安定化に空間的基盤を活用する,標的のない位置認識型攻撃目標を提案する。また、カメラの視野内に小さなカラフルなパッチを配置し、デジタル環境と物理環境の両方で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文参考訳（メタデータ） (2024-11-18T01:52:20Z)
A Study on Prompt Injection Attack Against LLM-Integrated Mobile Robotic Systems [4.71242457111104]
大規模言語モデル(LLM)はマルチモーダルプロンプトを処理でき、よりコンテキスト対応の応答を生成することができる。主な懸念事項の1つは、ロボットナビゲーションタスクでLLMを使用する際の潜在的なセキュリティリスクである。本研究は,LPM統合システムにおける即時注入が移動ロボットの性能に及ぼす影響について検討する。
論文参考訳（メタデータ） (2024-08-07T02:48:22Z)
Safeguarding Large Language Models: A Survey [20.854570045229917]
大規模言語モデル(LLM)の倫理的使用を所定の範囲内で確実にするための「保護」や「ガードレール」が義務付けられている。本稿は、この重要なメカニズムの現状について、体系的な文献レビューを提供する。その主な課題と、様々な文脈における倫理的問題を扱う包括的なメカニズムにどのように拡張できるかを論じる。
論文参考訳（メタデータ） (2024-06-03T19:27:46Z)
Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。 LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文参考訳（メタデータ） (2024-05-27T17:59:43Z)
Rethinking the Vulnerabilities of Face Recognition Systems:From a Practical Perspective [53.24281798458074]
顔認識システム(FRS)は、監視やユーザー認証を含む重要なアプリケーションにますます統合されている。最近の研究によると、FRSの脆弱性は敵(例えば、敵パッチ攻撃)やバックドア攻撃(例えば、データ中毒の訓練)であることが明らかになっている。
論文参考訳（メタデータ） (2024-05-21T13:34:23Z)
Highlighting the Safety Concerns of Deploying LLMs/VLMs in Robotics [54.57914943017522]
本稿では,大規模言語モデル (LLMs) と視覚言語モデル (VLMs) をロボティクスアプリケーションに統合する際のロバスト性と安全性に関する重要な課題を強調する。
論文参考訳（メタデータ） (2024-02-15T22:01:45Z)
Attention-Based Real-Time Defenses for Physical Adversarial Attacks in Vision Applications [58.06882713631082]
ディープニューラルネットワークはコンピュータビジョンタスクにおいて優れたパフォーマンスを示すが、現実の敵攻撃に対する脆弱性は深刻なセキュリティ上の懸念を引き起こす。本稿では、敵チャネルの注意力を利用して、浅いネットワーク層における悪意のある物体を素早く識別・追跡する、効果的な注意に基づく防御機構を提案する。また、効率的な多フレーム防御フレームワークを導入し、防御性能と計算コストの両方を評価することを目的とした広範な実験を通じて、その有効性を検証した。
論文参考訳（メタデータ） (2023-11-19T00:47:17Z)
Kick Bad Guys Out! Conditionally Activated Anomaly Detection in Federated Learning with Zero-Knowledge Proof Verification [22.078088272837068]
フェデレートラーニング(FL)システムは、モデル中毒やバックドア攻撃などの敵攻撃に対して脆弱である。本研究では,実用FLシナリオに特化して設計された新しい異常検出手法を提案する。本手法では,2段階の条件付き検出機構を用いる。
論文参考訳（メタデータ） (2023-10-06T07:09:05Z)
Untargeted White-box Adversarial Attack with Heuristic Defence Methods in Real-time Deep Learning based Network Intrusion Detection System [0.0]
Adversarial Machine Learning (AML)では、悪意のあるアクターが機械学習(ML)とディープラーニング(DL)モデルを騙して、誤った予測を生成する。 AMLは新たな研究領域であり、敵の攻撃の詳細な研究に欠かせないものとなっている。我々は,FGSM(Fast Gradient Sign Method),JSMA(Jacobian Saliency Map Attack),PGD(Projected Gradient Descent),Cerini & Wagner(C&W)の4つの強力な攻撃手法を実装した。
論文参考訳（メタデータ） (2023-10-05T06:32:56Z)
Adversarial defense for automatic speaker verification by cascaded self-supervised learning models [101.42920161993455]
ますます悪意のある攻撃者は、自動話者検証(ASV)システムで敵攻撃を仕掛けようとする。本稿では,逐次的自己教師付き学習モデルに基づく標準的かつ攻撃非依存な手法を提案する。実験により, 本手法は効果的な防御性能を実現し, 敵攻撃に対抗できることを示した。
論文参考訳（メタデータ） (2021-02-14T01:56:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。