論文の概要: Exploiting Novel GPT-4 APIs
- arxiv url: http://arxiv.org/abs/2312.14302v1
- Date: Thu, 21 Dec 2023 21:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:51:14.878059
- Title: Exploiting Novel GPT-4 APIs
- Title(参考訳): 新しいGPT-4 APIの公開
- Authors: Kellin Pelrine, Mohammad Taufeeque, Micha{\l} Zaj\k{a}c, Euan McLean,
Adam Gleave
- Abstract要約: GPT-4 APIで公開された3つの新機能として,ファインチューニング,関数呼び出し,知識検索について検討する。
GPT-4からコアセーフガードを除去できる有害例を15個、良性例を100個まで微調整できることが判明した。
GPT-4アシスタントは、関数呼び出しスキーマを簡単に拡張し、任意の関数呼び出しを実行することができる。
- 参考スコア(独自算出の注目度): 4.153041906673384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model attacks typically assume one of two extreme threat models:
full white-box access to model weights, or black-box access limited to a text
generation API. However, real-world APIs are often more flexible than just text
generation: these APIs expose ``gray-box'' access leading to new threat
vectors. To explore this, we red-team three new functionalities exposed in the
GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that
fine-tuning a model on as few as 15 harmful examples or 100 benign examples can
remove core safeguards from GPT-4, enabling a range of harmful outputs.
Furthermore, we find that GPT-4 Assistants readily divulge the function call
schema and can be made to execute arbitrary function calls. Finally, we find
that knowledge retrieval can be hijacked by injecting instructions into
retrieval documents. These vulnerabilities highlight that any additions to the
functionality exposed by an API can create new vulnerabilities.
- Abstract(参考訳): 言語モデル攻撃は通常、モデル重みへの完全なホワイトボックスアクセス、テキスト生成apiに限定されたブラックボックスアクセスの2つの極端な脅威モデルの1つを想定する。
これらのAPIは `gray-box'' アクセスを公開して新たな脅威ベクトルを生成する。
これを探るため、我々はGPT-4 APIで公開された3つの新機能(微調整、関数呼び出し、知識検索)を再設計した。
15個の有害な例や100個の良質な例でモデルを微調整すれば、gpt-4からコアセーフガードを取り除き、さまざまな有害なアウトプットが可能になることが分かりました。
さらに、GPT-4アシスタントは、関数呼び出しスキーマを簡単に拡張し、任意の関数呼び出しを実行することができる。
最後に,検索文書に指示を挿入することで,知識検索をハイジャックできることを示す。
これらの脆弱性は、apiが公開する機能への追加が新たな脆弱性を生み出すことを強調する。
関連論文リスト
- Model X-ray:Detect Backdoored Models via Decision Boundary [66.41173675107886]
ディープニューラルネットワーク(DNN)はさまざまな産業に革命をもたらし、機械学習・アズ・ア・サービス(ML)の台頭につながった。
DNNはバックドア攻撃の影響を受けやすいため、アプリケーションに重大なリスクが生じる。
本稿では,決定境界の解析を通じて,MLの新しいバックドア検出手法であるModel X-rayを提案する。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large
Language Models for Augmenting API Documentation [21.417218830976488]
APIDocBoosterは、抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点を融合させる。
APIDocBoosterは2つのステージで構成されている。 textbfSentence textbfSection textbfClassification (CSSC) と textbfUPdate textbfSUMmarization (UPSUM) である。
論文 参考訳(メタデータ) (2023-12-18T05:15:50Z) - Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4 [45.935748395725206]
GPT-4を用いた即時エンジニアリング支援型マルウェア動的解析手法を提案する。
この方法では、APIシーケンス内の各API呼び出しに対する説明テキストを作成するために、GPT-4が使用される。
BERTはテキストの表現を得るために使われ、そこからAPIシーケンスの表現を導出します。
論文 参考訳(メタデータ) (2023-12-13T17:39:44Z) - Exploring Behaviours of RESTful APIs in an Industrial Setting [0.43012765978447565]
これらのAPIが示す振る舞いの例を生成するために,REST APIに共通する一連の動作特性を提案する。
これらの例は、APIの理解を深めるために(i)、自動テストケースのソースとして(ii)の両方に使用することができます。
提案手法は,システム理解と実践者によるテスト生成の源泉として考えられる例を生成することができる。
論文 参考訳(メタデータ) (2023-10-26T11:33:11Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - Red Alarm for Pre-trained Models: Universal Vulnerability to
Neuron-Level Backdoor Attacks [98.15243373574518]
事前訓練されたモデル(PTM)は、下流の様々なタスクで広く使われている。
本研究では,バックドアアタックによって微調整されたPTMを容易に制御できるPTMの普遍的脆弱性を実証する。
論文 参考訳(メタデータ) (2021-01-18T10:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。