Fugu-MT 論文翻訳(概要): An Early Categorization of Prompt Injection Attacks on Large Language Models

論文の概要: An Early Categorization of Prompt Injection Attacks on Large Language Models

arxiv url: http://arxiv.org/abs/2402.00898v1
Date: Wed, 31 Jan 2024 19:52:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 18:32:33.988290
Title: An Early Categorization of Prompt Injection Attacks on Large Language Models
Title（参考訳）: 大規模言語モデルにおけるプロンプトインジェクション攻撃の早期分類
Authors: Sippo Rossi, Alisia Marianne Michel, Raghava Rao Mukkamala and Jason Bennett Thatcher
Abstract要約: 大規模な言語モデルとAIチャットボットは、人工知能の民主化の最前線にある。われわれは、ユーザーが新しいインジェクションと呼ばれる攻撃でモデルを誤用しようとする猫とマウスのゲームを目撃している。本稿では、これらの突発的脅威の概要と、即発注射の分類について述べる。
参考スコア（独自算出の注目度）: 0.8875650122536799
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models and AI chatbots have been at the forefront of democratizing artificial intelligence. However, the releases of ChatGPT and other similar tools have been followed by growing concerns regarding the difficulty of controlling large language models and their outputs. Currently, we are witnessing a cat-and-mouse game where users attempt to misuse the models with a novel attack called prompt injections. In contrast, the developers attempt to discover the vulnerabilities and block the attacks simultaneously. In this paper, we provide an overview of these emergent threats and present a categorization of prompt injections, which can guide future research on prompt injections and act as a checklist of vulnerabilities in the development of LLM interfaces. Moreover, based on previous literature and our own empirical research, we discuss the implications of prompt injections to LLM end users, developers, and researchers.
Abstract（参考訳）: 大規模な言語モデルとAIチャットボットは、人工知能の民主化の最前線にある。しかし、ChatGPTや他の類似ツールのリリースは、大きな言語モデルとその出力を制御することの難しさに対する懸念が高まっている。現在我々は、ユーザーが新しいインジェクションと呼ばれる攻撃でモデルを誤用しようとする猫とマウスのゲームを目撃している。対照的に、開発者は脆弱性を発見し、同時に攻撃をブロックしようとする。本稿では,これらの創発的脅威を概観し,プロンプトインジェクションのカテゴリ化を行い,プロンプトインジェクションに関する今後の研究を導くとともに,llmインターフェース開発における脆弱性チェックリストとして機能する。さらに, 従来の文献と我々の経験的研究に基づいて, LLMエンドユーザ, 開発者, 研究者に対する即時注入の影響について考察した。

関連論文リスト

Design Patterns for Securing LLM Agents against Prompt Injections [26.519964636138585]
インジェクション攻撃は自然言語入力に対するエージェントの弾力性を利用してる本稿では,AIエージェントのインジェクションに対する抵抗性を証明可能な設計パターンのセットを提案する。
論文参考訳（メタデータ） (2025-06-10T14:23:55Z)
System Prompt Poisoning: Persistent Attacks on Large Language Models Beyond User Injection [13.175123810033119]
大きな言語モデル(LLM)は、その印象的な生成能力のために、様々なアプリケーションで広く採用されている。既存の研究は主にユーザープロンプトによる脅威に焦点を当てているが、システムプロンプトのセキュリティはほとんど見過ごされている。 LLMに対する新たな攻撃ベクトルであるシステムプロンプト中毒を導入し、従来のユーザプロンプトインジェクションとは異なり、毒素システムプロンプトはその後のすべてのユーザインタラクションやモデル応答に永続的に影響を及ぼす。
論文参考訳（メタデータ） (2025-05-10T02:31:26Z)
WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
WASPと呼ばれるベンチマークでは、現実的なWebエージェントのハイジャックと、それらをテストするための独立した環境が導入されている。我々の評価は、高度な推論能力を持つモデルに支えられたAIエージェントでさえ、低便宜な人手によるプロンプトインジェクションの影響を受けやすいことを示している。エージェントは16～86%の時間で敵の指示を実行開始するが、0～17%の時間しか目標を達成できない。
論文参考訳（メタデータ） (2025-04-22T17:51:03Z)
Breaking the Prompt Wall (I): A Real-World Case Study of Attacking ChatGPT via Lightweight Prompt Injection [12.565784666173277]
本報告では,ChatGPTのような大規模言語モデルプラットフォームに対して,インジェクションのプロンプトがどう作用するかを示す実例を示す。本稿では,ユーザ入力や Web ベース検索,システムレベルのエージェント命令を通じて,敵対的プロンプトをインジェクションする方法を示す。
論文参考訳（メタデータ） (2025-04-20T05:59:00Z)
UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models [30.139590566956077]
大規模言語モデル(LLM)は、迅速なインジェクション、バックドアアタック、敵攻撃のような攻撃に対して脆弱である。我々は,LLMにおける即時注入,バックドア攻撃,敵攻撃を検出するために設計された,最初の統一防御機構であるUniGuardianを提案する。
論文参考訳（メタデータ） (2025-02-18T18:59:00Z)
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [49.13497493053742]
我々は、より現実的で強力な脅威である、人間が読める敵のプロンプトに焦点を当てている。主な貢献は,(1)映画脚本を文脈として活用し,LLMを欺くような人間可読性プロンプトを生成すること,(2)非感覚的逆接接尾辞を独立した意味のあるテキストに変換するための逆接尾辞変換,(3) p-核サンプリングによるアドブプロンプター,(3)多種多様な人間可読性逆接尾辞を生成する方法である。
論文参考訳（メタデータ） (2024-12-20T21:43:52Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文参考訳（メタデータ） (2024-04-02T12:49:22Z)
Automatic and Universal Prompt Injection Attacks against Large Language Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文参考訳（メタデータ） (2024-03-07T23:46:20Z)
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文参考訳（メタデータ） (2023-11-02T06:13:36Z)
Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文参考訳（メタデータ） (2023-10-19T15:12:09Z)
Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)
Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文参考訳（メタデータ） (2022-07-20T19:49:09Z)
"That Is a Suspicious Reaction!": Interpreting Logits Variation to Detect NLP Adversarial Attacks [0.2999888908665659]
敵攻撃は、現在の機械学習研究で直面する大きな課題である。本研究は, 逆文例のモデルに依存しない検出法を提案する。
論文参考訳（メタデータ） (2022-04-10T09:24:41Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
Bad Characters: Imperceptible NLP Attacks [16.357959724298745]
敵対的な例のクラスは、ブラックボックスの設定でテキストベースのモデルを攻撃するために使用することができる。単一の知覚不可能なエンコーディングインジェクションでは、攻撃者は脆弱なモデルの性能を大幅に低下させることができる。弊社の攻撃は、MicrosoftやGoogleなど、現在展開中の商用システムに対するものだ。
論文参考訳（メタデータ） (2021-06-18T03:42:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。