Fugu-MT 論文翻訳(概要): Exploiting Novel GPT-4 APIs

論文の概要: Exploiting Novel GPT-4 APIs

arxiv url: http://arxiv.org/abs/2312.14302v1
Date: Thu, 21 Dec 2023 21:22:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 16:51:14.878059
Title: Exploiting Novel GPT-4 APIs
Title（参考訳）: 新しいGPT-4 APIの公開
Authors: Kellin Pelrine, Mohammad Taufeeque, Micha{\l} Zaj\k{a}c, Euan McLean, Adam Gleave
Abstract要約: GPT-4 APIで公開された3つの新機能として,ファインチューニング,関数呼び出し,知識検索について検討する。 GPT-4からコアセーフガードを除去できる有害例を15個、良性例を100個まで微調整できることが判明した。 GPT-4アシスタントは、関数呼び出しスキーマを簡単に拡張し、任意の関数呼び出しを実行することができる。
参考スコア（独自算出の注目度）: 4.153041906673384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.
Abstract（参考訳）: 言語モデル攻撃は通常、モデル重みへの完全なホワイトボックスアクセス、テキスト生成apiに限定されたブラックボックスアクセスの2つの極端な脅威モデルの1つを想定する。これらのAPIは `gray-box'' アクセスを公開して新たな脅威ベクトルを生成する。これを探るため、我々はGPT-4 APIで公開された3つの新機能(微調整、関数呼び出し、知識検索)を再設計した。 15個の有害な例や100個の良質な例でモデルを微調整すれば、gpt-4からコアセーフガードを取り除き、さまざまな有害なアウトプットが可能になることが分かりました。さらに、GPT-4アシスタントは、関数呼び出しスキーマを簡単に拡張し、任意の関数呼び出しを実行することができる。最後に,検索文書に指示を挿入することで,知識検索をハイジャックできることを示す。これらの脆弱性は、apiが公開する機能への追加が新たな脆弱性を生み出すことを強調する。

関連論文リスト

Overcoming the Retrieval Barrier: Indirect Prompt Injection in the Wild for LLM Systems [7.15710884787427]
大規模言語モデル(LLM)は、外部コーパスから情報を取得することにますます依存している。これにより新たな攻撃面が生成される:間接的プロンプトインジェクション(IPI) 本稿では,自然クエリと現実的な外部コーパスに基づいて,エンド・ツー・エンド IPI エクスプロイトを初めて提示する。
論文参考訳（メタデータ） (2026-01-11T21:33:59Z)
Deep Dive into the Abuse of DL APIs To Create Malicious AI Models and How to Detect Them [3.8802542855314788]
事前トレーニングされたAIモデルは、Hugging FaceやHubといったモデルハブから取得されることが多い。これにより、攻撃者が悪意のあるコードをモデルに注入できるセキュリティリスクがもたらされる。ファイルの読み取り/書き込みやネットワークの送/受信といったAPIの隠れた機能を悪用する方法を示す。
論文参考訳（メタデータ） (2026-01-08T03:30:20Z)
Fundamental Limitations in Defending LLM Finetuning APIs [61.29028411001255]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。 OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文参考訳（メタデータ） (2025-02-20T18:45:01Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
Adaptive Exploit Generation against Security Devices and Security APIs [3.706222947143855]
フォーマルな方法を用いて,Security APIに対する概念実証エクスプロイトを自動的に導出する方法を示す。一般的なプロトコル検証器ProVerifを言語に依存しないテンプレート機構で拡張する。
論文参考訳（メタデータ） (2024-10-02T14:05:44Z)
FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文参考訳（メタデータ） (2024-07-18T23:44:02Z)
WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment [49.00213183302225]
本稿では, wikiHow 命令をエージェントの配置ポリシーに基礎付けることで, 新たな API を創出するフレームワークを提案する。大規模言語モデル (LLM) の具体化計画における近年の成功に触発されて, GPT-4 のステアリングを目的とした数発のプロンプトを提案する。
論文参考訳（メタデータ） (2024-07-10T15:52:44Z)
A Classification-by-Retrieval Framework for Few-Shot Anomaly Detection to Detect API Injection Attacks [9.693391036125908]
本稿では,2つの主要部品からなる非教師なし数発の異常検出フレームワークを提案する。まず、FastTextの埋め込みに基づいたAPI専用の汎用言語モデルをトレーニングする。次に,近似Nearest Neighborサーチを分類・検索手法として用いた。
論文参考訳（メタデータ） (2024-05-18T10:15:31Z)
APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large Language Models for Augmenting API Documentation [21.417218830976488]
APIDocBoosterは、抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点を融合させる。 APIDocBoosterは2つのステージで構成されている。 textbfSentence textbfSection textbfClassification (CSSC) と textbfUPdate textbfSUMmarization (UPSUM) である。
論文参考訳（メタデータ） (2023-12-18T05:15:50Z)
Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4 [45.935748395725206]
GPT-4を用いた即時エンジニアリング支援型マルウェア動的解析手法を提案する。この方法では、APIシーケンス内の各API呼び出しに対する説明テキストを作成するために、GPT-4が使用される。 BERTはテキストの表現を得るために使われ、そこからAPIシーケンスの表現を導出します。
論文参考訳（メタデータ） (2023-12-13T17:39:44Z)
VulLibGen: Generating Names of Vulnerability-Affected Packages via a Large Language Model [13.96251273677855]
VulLibGenは、影響を受けるパッケージを直接生成するメソッドである。脆弱性のあるパッケージを識別するための平均精度は0.806である。私たちはGitHub Advisoryに60の脆弱性、影響のあるパッケージ>ペアを提出しました。
論文参考訳（メタデータ） (2023-08-09T02:02:46Z)
Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文参考訳（メタデータ） (2023-07-28T07:43:13Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)
Red Alarm for Pre-trained Models: Universal Vulnerability to Neuron-Level Backdoor Attacks [98.15243373574518]
事前訓練されたモデル(PTM)は、下流の様々なタスクで広く使われている。本研究では,バックドアアタックによって微調整されたPTMを容易に制御できるPTMの普遍的脆弱性を実証する。
論文参考訳（メタデータ） (2021-01-18T10:18:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。