論文の概要: Exploiting Novel GPT-4 APIs
- arxiv url: http://arxiv.org/abs/2312.14302v2
- Date: Sun, 4 Aug 2024 17:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 23:55:54.581576
- Title: Exploiting Novel GPT-4 APIs
- Title(参考訳): 新しいGPT-4 APIの公開
- Authors: Kellin Pelrine, Mohammad Taufeeque, Michał Zając, Euan McLean, Adam Gleave,
- Abstract要約: GPT-4 APIで公開された3つの新機能として,ファインチューニング,関数呼び出し,知識検索について検討する。
GPT-4からコアセーフガードを除去できる有害例を15個、良性例を100個まで微調整できることが判明した。
GPT-4アシスタントは、関数呼び出しスキーマを簡単に拡張し、任意の関数呼び出しを実行することができる。
- 参考スコア(独自算出の注目度): 3.8710514689921296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose "gray-box" access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.
- Abstract(参考訳): 言語モデル攻撃は通常、モデルウェイトに対する完全なホワイトボックスアクセスと、テキスト生成APIに制限されたブラックボックスアクセスの2つの極端な脅威モデルのうちの1つを想定する。
しかし、現実のAPIはテキスト生成よりもフレキシブルであることが多い。これらのAPIは、新しい脅威ベクトルにつながる"グレーボックス"アクセスを公開する。
これを探るため、我々はGPT-4 APIで公開された3つの新機能(微調整、関数呼び出し、知識検索)を再設計した。
GPT-4からコアセーフガードを取り除き、有害な出力の範囲を許容する。
さらに、GPT-4アシスタントは、関数呼び出しスキーマを簡単に拡張し、任意の関数呼び出しを実行することができる。
最後に,検索文書に指示を注入することで,知識検索をハイジャックできることを見出した。
これらの脆弱性は、APIによって公開された機能への追加が、新たな脆弱性を生み出す可能性があることを強調している。
関連論文リスト
- Adaptive Exploit Generation against Security Devices and Security APIs [3.706222947143855]
フォーマルな方法を用いて,Security APIに対する概念実証エクスプロイトを自動的に導出する方法を示す。
一般的なプロトコル検証器ProVerifを言語に依存しないテンプレート機構で拡張する。
論文 参考訳(メタデータ) (2024-10-02T14:05:44Z) - FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。
既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。
本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T23:44:02Z) - WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment [49.00213183302225]
本稿では, wikiHow 命令をエージェントの配置ポリシーに基礎付けることで, 新たな API を創出するフレームワークを提案する。
大規模言語モデル (LLM) の具体化計画における近年の成功に触発されて, GPT-4 のステアリングを目的とした数発のプロンプトを提案する。
論文 参考訳(メタデータ) (2024-07-10T15:52:44Z) - A Classification-by-Retrieval Framework for Few-Shot Anomaly Detection to Detect API Injection Attacks [9.693391036125908]
本稿では,2つの主要部品からなる非教師なし数発の異常検出フレームワークを提案する。
まず、FastTextの埋め込みに基づいたAPI専用の汎用言語モデルをトレーニングする。
次に,近似Nearest Neighborサーチを分類・検索手法として用いた。
論文 参考訳(メタデータ) (2024-05-18T10:15:31Z) - Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4 [45.935748395725206]
GPT-4を用いた即時エンジニアリング支援型マルウェア動的解析手法を提案する。
この方法では、APIシーケンス内の各API呼び出しに対する説明テキストを作成するために、GPT-4が使用される。
BERTはテキストの表現を得るために使われ、そこからAPIシーケンスの表現を導出します。
論文 参考訳(メタデータ) (2023-12-13T17:39:44Z) - VulLibGen: Generating Names of Vulnerability-Affected Packages via a Large Language Model [13.96251273677855]
VulLibGenは、影響を受けるパッケージを直接生成するメソッドである。
脆弱性のあるパッケージを識別するための平均精度は0.806である。
私たちはGitHub Advisoryに60の脆弱性、影響のあるパッケージ>ペアを提出しました。
論文 参考訳(メタデータ) (2023-08-09T02:02:46Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Red Alarm for Pre-trained Models: Universal Vulnerability to
Neuron-Level Backdoor Attacks [98.15243373574518]
事前訓練されたモデル(PTM)は、下流の様々なタスクで広く使われている。
本研究では,バックドアアタックによって微調整されたPTMを容易に制御できるPTMの普遍的脆弱性を実証する。
論文 参考訳(メタデータ) (2021-01-18T10:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。