論文の概要: Deep Dive into the Abuse of DL APIs To Create Malicious AI Models and How to Detect Them
- arxiv url: http://arxiv.org/abs/2601.04553v1
- Date: Thu, 08 Jan 2026 03:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.018032
- Title: Deep Dive into the Abuse of DL APIs To Create Malicious AI Models and How to Detect Them
- Title(参考訳): DL APIの悪用を深く掘り下げて悪意あるAIモデルとその検出方法
- Authors: Mohamed Nabeel, Oleksii Starov,
- Abstract要約: 事前トレーニングされたAIモデルは、Hugging FaceやHubといったモデルハブから取得されることが多い。
これにより、攻撃者が悪意のあるコードをモデルに注入できるセキュリティリスクがもたらされる。
ファイルの読み取り/書き込みやネットワークの送/受信といったAPIの隠れた機能を悪用する方法を示す。
- 参考スコア(独自算出の注目度): 3.8802542855314788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: According to Gartner, more than 70% of organizations will have integrated AI models into their workflows by the end of 2025. In order to reduce cost and foster innovation, it is often the case that pre-trained models are fetched from model hubs like Hugging Face or TensorFlow Hub. However, this introduces a security risk where attackers can inject malicious code into the models they upload to these hubs, leading to various kinds of attacks including remote code execution (RCE), sensitive data exfiltration, and system file modification when these models are loaded or executed (predict function). Since AI models play a critical role in digital transformation, this would drastically increase the number of software supply chain attacks. While there are several efforts at detecting malware when deserializing pickle based saved models (hiding malware in model parameters), the risk of abusing DL APIs (e.g. TensorFlow APIs) is understudied. Specifically, we show how one can abuse hidden functionalities of TensorFlow APIs such as file read/write and network send/receive along with their persistence APIs to launch attacks. It is concerning to note that existing scanners in model hubs like Hugging Face and TensorFlow Hub are unable to detect some of the stealthy abuse of such APIs. This is because scanning tools only have a syntactically identified set of suspicious functionality that is being analysed. They often do not have a semantic-level understanding of the functionality utilized. After demonstrating the possible attacks, we show how one may identify potentially abusable hidden API functionalities using LLMs and build scanners to detect such abuses.
- Abstract(参考訳): Gartnerによると、2025年末までに70%以上の組織がAIモデルをワークフローに統合する。
コスト削減とイノベーションの促進のために、Hugging FaceやTensorFlow Hubといったモデルハブから事前トレーニングされたモデルを取り出す場合が多い。
しかし、これは攻撃者がこれらのハブにアップロードしたモデルに悪意あるコードを注入できるセキュリティリスクを導入し、リモートコード実行(RCE)、機密データ抽出、これらのモデルがロードまたは実行された時のシステムファイル修正(予測関数)など、さまざまな種類の攻撃を引き起こす。
AIモデルはデジタルトランスフォーメーションにおいて重要な役割を果たすため、ソフトウェアサプライチェーンアタックの数を大幅に増加させます。
ピクルスベースの保存モデル(モデルパラメータにマルウェアを隠蔽する)をデシリアライズする際のマルウェア検出にはいくつかの取り組みがあるが、DL API(TensorFlow APIなど)を悪用するリスクは検討されている。
具体的には、ファイル読み込み/書き込みやネットワーク送信/受信といったTensorFlow APIの隠れた機能を、攻撃を開始するための永続APIとともに悪用する方法を示す。
Hugging FaceやTensorFlow Hubのようなモデルハブにある既存のスキャナーは、そのようなAPIのステルスな悪用を検出できない点に注意が必要だ。
これは、スキャンツールが、分析されている不審な機能のセットを構文的に識別するだけであるためである。
それらが利用する機能のセマンティックレベルの理解を持たないことが多い。
攻撃の可能性を実証した後、LSMを用いて潜在的に悪用可能な隠蔽API機能を特定し、そのような悪用を検出するためのスキャナーを構築する方法を示す。
関連論文リスト
- Fundamental Limitations in Pointwise Defences of LLM Finetuning APIs [56.84338097581665]
細調整APIの防御は、細調整攻撃を防ぐ能力に基本的に制限されていることを示す。
我々は、危険知識を隠蔽的に伝達するために、良性モデル出力のエントロピーを再利用する'ポイントワイド検出不能'アタックを構築した。
OpenAIの微調整APIに対する攻撃をテストし、有害な複数の質問に対する回答を導き出すことに成功しました。
論文 参考訳(メタデータ) (2025-02-20T18:45:01Z) - Malware Detection based on API calls [0.48866322421122627]
我々は、マルウェアの脅威を検出し緩和するための軽量でオーダー不変なアプローチを探究する。
我々は、良心または悪意のある活動を示すラベルを付した、300万以上のサンプルの公開データセットを公開します。
ランダムな森林のような機械学習アルゴリズムを活用し、API呼び出しシーケンスのパターンや異常を調べて行動分析を行う。
論文 参考訳(メタデータ) (2025-02-18T13:51:56Z) - Bounding-box Watermarking: Defense against Model Extraction Attacks on Object Detectors [1.1510009152620668]
この研究はオブジェクト検出(OD)モデルに焦点を当てている。
既存のODモデルに対するバックドア攻撃は、現実的な脅威モデルにおけるMEAに対する防御としてモデル透かしには適用できない。
提案手法では,OD機能を保ちながら,クエリで検出されたオブジェクトのバウンディングボックス(BB)を密かに修正することで,抽出したモデルにAPIを介してバックドアを挿入する。
論文 参考訳(メタデータ) (2024-11-20T05:40:20Z) - A Classification-by-Retrieval Framework for Few-Shot Anomaly Detection to Detect API Injection Attacks [9.693391036125908]
本稿では,2つの主要部品からなる非教師なし数発の異常検出フレームワークを提案する。
まず、FastTextの埋め込みに基づいたAPI専用の汎用言語モデルをトレーニングする。
次に,近似Nearest Neighborサーチを分類・検索手法として用いた。
論文 参考訳(メタデータ) (2024-05-18T10:15:31Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4 [45.935748395725206]
GPT-4を用いた即時エンジニアリング支援型マルウェア動的解析手法を提案する。
この方法では、APIシーケンス内の各API呼び出しに対する説明テキストを作成するために、GPT-4が使用される。
BERTはテキストの表現を得るために使われ、そこからAPIシーケンスの表現を導出します。
論文 参考訳(メタデータ) (2023-12-13T17:39:44Z) - Mask and Restore: Blind Backdoor Defense at Test Time with Masked Autoencoder [50.1394620328318]
既存のバックドア防御手法では、いくつかのバリデーションデータとモデルパラメータにアクセスする必要があることが多い。
Masked AutoEncoder (BDMAE) を用いたブラインドバックドアディフェンスの提案
BDMAEは、画像の構造的類似性と、テスト画像とMAE復元の間のラベルの整合性を用いて、可能な局所的なトリガを検出する。
論文 参考訳(メタデータ) (2023-03-27T19:23:33Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。