Fugu-MT 論文翻訳(概要): Computing Optimization-Based Prompt Injections Against Closed-Weights Models By Misusing a Fine-Tuning API

論文の概要: Computing Optimization-Based Prompt Injections Against Closed-Weights Models By Misusing a Fine-Tuning API

arxiv url: http://arxiv.org/abs/2501.09798v1
Date: Thu, 16 Jan 2025 19:01:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 17:59:09.581995
Title: Computing Optimization-Based Prompt Injections Against Closed-Weights Models By Misusing a Fine-Tuning API
Title（参考訳）: ファインチューニングAPIの誤用による閉重モデルに対する最適化に基づくプロンプトインジェクション
Authors: Andrey Labunets, Nishit V. Pandya, Ashish Hooda, Xiaohan Fu, Earlence Fernandes,
Abstract要約: 本稿では,攻撃者が遠隔操作インタフェースから返却した損失情報を利用して,敵のプロンプトを探索する方法について述べる。 LLMのGoogle Geminiファミリでは65%から82%の攻撃成功率を示しています。
参考スコア（独自算出の注目度）: 3.908034401768844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We surface a new threat to closed-weight Large Language Models (LLMs) that enables an attacker to compute optimization-based prompt injections. Specifically, we characterize how an attacker can leverage the loss-like information returned from the remote fine-tuning interface to guide the search for adversarial prompts. The fine-tuning interface is hosted by an LLM vendor and allows developers to fine-tune LLMs for their tasks, thus providing utility, but also exposes enough information for an attacker to compute adversarial prompts. Through an experimental analysis, we characterize the loss-like values returned by the Gemini fine-tuning API and demonstrate that they provide a useful signal for discrete optimization of adversarial prompts using a greedy search algorithm. Using the PurpleLlama prompt injection benchmark, we demonstrate attack success rates between 65% and 82% on Google's Gemini family of LLMs. These attacks exploit the classic utility-security tradeoff - the fine-tuning interface provides a useful feature for developers but also exposes the LLMs to powerful attacks.
Abstract（参考訳）: 我々は、攻撃者が最適化ベースのプロンプトインジェクションを計算できるような、クローズドウェイトなLarge Language Models (LLM) に対する新たな脅威を提示する。具体的には、リモートの微調整インタフェースから返される損失情報を利用して、敵のプロンプトの探索を誘導する方法を特徴付ける。ファインチューニングインターフェースはLLMベンダーによってホストされており、開発者は自身のタスクのためにLDMを微調整できるため、ユーティリティを提供するだけでなく、攻撃者が敵のプロンプトを計算するのに十分な情報を公開することができる。実験により,GeminiファインチューニングAPIによって返される損失様の値を特徴付けるとともに,逆方向のプロンプトの離散的最適化に有用な信号であることを示す。 PurpleLlamaプロンプトインジェクションのベンチマークを使用して、GoogleのジェミニファミリーのLSMで65%から82%の攻撃成功率を示す。これらの攻撃は、古典的なユーティリティセキュリティのトレードオフを悪用する - 微調整インターフェースは、開発者にとって有用な機能を提供すると同時に、強力な攻撃に対してLLMを公開する。

関連論文リスト

Defending against Indirect Prompt Injection by Instruction Detection [81.98614607987793]
本稿では, 外部データを入力として取り込んで, 前方および後方の伝搬中におけるLCMの動作状態を利用して, 潜在的なIPI攻撃を検出する手法を提案する。提案手法は,ドメイン内設定で99.60%,ドメイン外設定で96.90%,攻撃成功率でBIPIAベンチマークで0.12%に低下する。
論文参考訳（メタデータ） (2025-05-08T13:04:45Z)
DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [101.52204404377039]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文参考訳（メタデータ） (2025-04-15T16:26:21Z)
Augmented Adversarial Trigger Learning [14.365410701358579]
対象を拡大した逆トリガー学習(ATLA: Adversarial Trigger Learning)を提案する。我々は,ATLAが最先端技術より一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-03-16T03:20:52Z)
SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
QROA: A Black-Box Query-Response Optimization Attack on LLMs [2.7624021966289605]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を持っている。本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。
論文参考訳（メタデータ） (2024-06-04T07:27:36Z)
AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文参考訳（メタデータ） (2024-04-21T22:18:13Z)
Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文参考訳（メタデータ） (2024-03-20T15:26:23Z)
ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文参考訳（メタデータ） (2024-02-25T06:46:27Z)
Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。 In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文参考訳（メタデータ） (2024-02-21T01:30:03Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。