Fugu-MT 論文翻訳(概要): Prompt Packer: Deceiving LLMs through Compositional Instruction with Hidden Attacks

論文の概要: Prompt Packer: Deceiving LLMs through Compositional Instruction with Hidden Attacks

arxiv url: http://arxiv.org/abs/2310.10077v1
Date: Mon, 16 Oct 2023 05:19:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 16:17:50.466837
Title: Prompt Packer: Deceiving LLMs through Compositional Instruction with Hidden Attacks
Title（参考訳）: Prompt Packer: 隠れ攻撃による構成指示によるLCMの劣化
Authors: Shuyu Jiang, Xingshu Chen, Rui Tang
Abstract要約: 我々は、有害な指示を妨害する革新的な手法を導入する: 作曲命令攻撃(CIA) CIAは無害な意図の指示の中に有害なプロンプトを隠しており、モデルが根底にある悪意のある意図を特定することは不可能である。我々はT-CIAとW-CIAという2つのトランスフォーメーション手法を実装し、有害な指示を会話や文章のタスクとして自動的に偽装する。
参考スコア（独自算出の注目度）: 7.620184120084706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Large language models (LLMs) with powerful general capabilities have been increasingly integrated into various Web applications, while undergoing alignment training to ensure that the generated content aligns with user intent and ethics. Unfortunately, they remain the risk of generating harmful content like hate speech and criminal activities in practical applications. Current approaches primarily rely on detecting, collecting, and training against harmful prompts to prevent such risks. However, they typically focused on the "superficial" harmful prompts with a solitary intent, ignoring composite attack instructions with multiple intentions that can easily elicit harmful content in real-world scenarios. In this paper, we introduce an innovative technique for obfuscating harmful instructions: Compositional Instruction Attacks (CIA), which refers to attacking by combination and encapsulation of multiple instructions. CIA hides harmful prompts within instructions of harmless intentions, making it impossible for the model to identify underlying malicious intentions. Furthermore, we implement two transformation methods, known as T-CIA and W-CIA, to automatically disguise harmful instructions as talking or writing tasks, making them appear harmless to LLMs. We evaluated CIA on GPT-4, ChatGPT, and ChatGLM2 with two safety assessment datasets and two harmful prompt datasets. It achieves an attack success rate of 95%+ on safety assessment datasets, and 83%+ for GPT-4, 91%+ for ChatGPT (gpt-3.5-turbo backed) and ChatGLM2-6B on harmful prompt datasets. Our approach reveals the vulnerability of LLMs to such compositional instruction attacks that harbor underlying harmful intentions, contributing significantly to LLM security development. Warning: this paper may contain offensive or upsetting content!
Abstract（参考訳）: 近年、強力な汎用機能を持つ大規模言語モデル(LLM)が様々なWebアプリケーションに統合されつつ、生成されたコンテンツがユーザの意図や倫理と整合することを保証するアライメントトレーニングが実施されている。残念ながら、ヘイトスピーチや犯罪行為などの有害なコンテンツを現実の応用で生成するリスクは残る。現在のアプローチは主に、このようなリスクを防ぐために有害なプロンプトの検出、収集、トレーニングに依存している。しかし、彼らは通常、単発的な意図で「表面的」有害なプロンプトに焦点を当て、現実世界のシナリオで有害なコンテンツを容易に引き出す複数の意図で複合攻撃命令を無視した。本稿では,複数の命令の組み合わせとカプセル化による攻撃を指す合成命令攻撃(cia)という,有害な命令を隠蔽する革新的な手法を提案する。 CIAは有害な指示を無害な意図の指示の中に隠しており、モデルが根底にある悪意のある意図を特定することは不可能である。さらに、T-CIAとW-CIAと呼ばれる2つのトランスフォーメーション手法を実装し、有害な指示を会話や文章のタスクとして自動的に偽装し、LLMに無害に見えるようにする。 GPT-4, ChatGPT, ChatGLM2でCIAを2つの安全性評価データセットと2つの有害なプロンプトデータセットで評価した。安全評価データセットで95%以上、GPT-4で83%以上、ChatGPTで91%以上、有害なプロンプトデータセットでChatGLM2-6Bを攻撃成功率で達成している。提案手法は, 有害な意図を隠蔽し, LLM のセキュリティ開発に大きく貢献する, 構成的攻撃に対する LLM の脆弱性を明らかにする。警告:この論文には、攻撃的または不安定なコンテンツが含まれているかもしれない。

関連論文リスト

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking [3.718606661938873]
本稿では、ソフトウェアセキュリティからROP(Return-Oriented Programming)技術にインスパイアされた、新しい効果的なジェイルブレイクフレームワークを提案する。提案手法では,有害な指示を視覚ガジェットの系列に分解する。以上の結果から,LVLMの構成的推論能力を利用した,重要かつ過小評価された脆弱性が判明した。
論文参考訳（メタデータ） (2025-07-29T07:13:56Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Invisible Prompts, Visible Threats: Malicious Font Injection in External Resources for Large Language Models [29.879456712405204]
大規模言語モデル(LLM)は、リアルタイムWeb検索機能を備え、モデルコンテキストプロトコル(MCP)のようなプロトコルと統合されつつある。この拡張は新たなセキュリティ脆弱性を導入する可能性がある。本稿では,Webページなどの外部リソースに悪意あるフォント注入を施して,隠れた敵のプロンプトに対するLLM脆弱性を系統的に調査する。
論文参考訳（メタデータ） (2025-05-22T17:36:33Z)
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
Inducing Vulnerable Code Generation in LLM Coding Assistants [10.067898047221558]
本稿では,攻撃者が参照外部情報を利用して攻撃シーケンスを埋め込むHACKODEという現実世界の脅威を明らかにする。我々は攻撃のプロトタイプを設計し、潜在的に多様な入力に対して効果的な攻撃シーケンスを生成する。現実世界のアプリケーションでは、HACKODEは75.92%のASRを達成した。
論文参考訳（メタデータ） (2025-04-22T13:09:20Z)
The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs [1.9424018922013224]
LLMに対する新たなジェイルブレイク攻撃のクラスを提示する。提案手法では,シーケンス・ツー・シーケンス・タスクをモデルが間接的に禁止された入力を生成するプロンプトに組み込む。我々は,6つの最先端言語モデルにおいて,安全対策を回避できることを実証した。
論文参考訳（メタデータ） (2025-01-27T12:48:47Z)
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.821481786228226]
本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文参考訳（メタデータ） (2024-12-20T21:43:52Z)
Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues [88.96201324719205]
本研究では,マルチターンインタラクションにおけるLarge Language Models(LLM)の安全性の脆弱性を明らかにする。本稿ではアクターネットワーク理論に触発された新しいマルチターン攻撃手法であるActorAttackを紹介する。
論文参考訳（メタデータ） (2024-10-14T16:41:49Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。 LLMは有害なデータ収集や隠蔽攻撃に使用できる。私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文参考訳（メタデータ） (2024-08-20T09:11:21Z)
TAPI: Towards Target-Specific and Adversarial Prompt Injection against Code LLMs [27.700010465702842]
本稿では,新たな攻撃パラダイム,すなわち,コードLLMに対するターゲット固有および対向的プロンプトインジェクション(TAPI)を提案する。 TAPIは悪意のある命令に関する情報を含む読めないコメントを生成し、それらを外部ソースコードのトリガーとして隠す。 CodeGeexやGithub Copilotなど、デプロイされたコード補完統合アプリケーションに対する攻撃に成功しました。
論文参考訳（メタデータ） (2024-07-12T10:59:32Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。 5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文参考訳（メタデータ） (2023-10-04T16:39:31Z)
Certifying LLM Safety against Adversarial Prompting [75.19953634352258]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文参考訳（メタデータ） (2023-09-06T04:37:20Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。