Fugu-MT 論文翻訳(概要): ShieldedCode: Learning Robust Representations for Virtual Machine Protected Code

論文の概要: ShieldedCode: Learning Robust Representations for Virtual Machine Protected Code

arxiv url: http://arxiv.org/abs/2601.20679v1
Date: Wed, 28 Jan 2026 15:07:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-29 15:46:06.988229
Title: ShieldedCode: Learning Robust Representations for Virtual Machine Protected Code
Title（参考訳）: ShieldedCode: 仮想マシン保護コードのロバスト表現を学ぶ
Authors: Mingqiao Mo, Yunlong Tan, Hao Zhang, Heng Zhang, Yangfan He,
Abstract要約: ShieldedCodeはVMPで保護されたコードの堅牢な表現を学習する最初の保護対応フレームワークである。 GPT-4o の 22.58% と比較して L0 VM コード生成では 26.95% Pass@1 が達成され,jTrans のような最先端の手法では Recall@1 が10% 向上する。
参考スコア（独自算出の注目度）: 9.803721207708941
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved remarkable progress in code generation, yet their potential for software protection remains largely untapped. Reverse engineering continues to threaten software security, while traditional virtual machine protection (VMP) relies on rigid, rule-based transformations that are costly to design and vulnerable to automated analysis. In this work, we present the first protection-aware framework that learns robust representations of VMP-protected code. Our approach builds large-scale paired datasets of source code and normalized VM implementations, and introduces hierarchical dependency modeling at intra-, preceding-, and inter-instruction levels. We jointly optimize language modeling with functionality-aware and protection-aware contrastive objectives to capture both semantic equivalence and protection strength. To further assess resilience, we propose a protection effectiveness optimization task that quantifies and ranks different VM variants derived from the same source. Coupled with a two-stage continual pre-training and fine-tuning pipeline, our method enables models to generate, compare, and reason over protected code. Extensive experiments show that our framework significantly improves robustness across diverse protection levels, opening a new research direction for learning-based software defense. In this work, we present ShieldedCode, the first protection-aware framework that learns robust representations of VMP-protected code. Our method achieves 26.95% Pass@1 on L0 VM code generation compared to 22.58% for GPT-4o., and improves binary similarity detection Recall@1 by 10% over state of art methods like jTrans.
Abstract（参考訳）: 大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げているが、ソフトウェア保護の可能性はほとんど未完成である。リバースエンジニアリングはソフトウェアセキュリティを脅かす一方で、従来の仮想マシン保護(VMP)は、設計にコストがかかり、自動分析に脆弱な厳格なルールベースの変換に依存している。本研究では,VMPで保護されたコードの堅牢な表現を学習する最初の保護対応フレームワークを提案する。提案手法は,ソースコードと正規化されたVM実装の大規模ペアデータセットを構築し,イントライントライントラインストラクションレベル,事前インストラクションレベル,インターストラクションレベルの階層的依存性モデリングを導入する。我々は,機能意識と保護意識を両立させた言語モデリングを共同で最適化し,意味的等価性と保護強度の両面を捉える。レジリエンスをさらに評価するために,同一ソースから派生した異なるVMを定量化し,ランク付けする保護効果最適化タスクを提案する。 2段階の継続事前学習と微調整パイプラインを組み合わせることで、モデルが保護されたコードを生成し、比較し、推論することができる。大規模な実験により、我々のフレームワークは多様な保護レベルにわたってロバスト性を大幅に改善し、学習ベースのソフトウェア防衛のための新たな研究方向を開くことが示されている。本稿では,VMPで保護されたコードの堅牢な表現を学習する最初の保護対応フレームワークであるShieledCodeを紹介する。 GPT-4oでは22.58%に対して,L0 VMでは26.95%のPass@1を実現している。 jTransのような最先端のメソッドでRecall@1を10%改善する。

関連論文リスト

Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文参考訳（メタデータ） (2026-02-07T07:42:07Z)
Super Suffixes: Bypassing Text Generation Alignment and Guard Models Simultaneously [1.2972852925029712]
大規模言語モデル(LLM)はテキスト入力の処理や実行可能なコード生成にますます利用されている。 LLMはテキスト入力の処理や実行可能コードの生成にますます使われています。いくつかの企業がガードモデルを導入しており、テキスト生成モデルが敵または悪意のある入力から保護されるように設計された、より小型で特殊なモデルである。
論文参考訳（メタデータ） (2025-12-12T18:52:09Z)
Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。 MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。 MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-11-20T07:12:54Z)
BEACON: Behavioral Malware Classification with Large Language Model Embeddings and Deep Learning [0.21485350418225244]
従来の静的解析は、コードの難読化、ポリモーフィズム、その他の回避技術を用いた現代の脅威に対して防御に失敗する。本研究では,大規模言語モデル(LLM)を利用した新しいディープラーニングフレームワークBEACONを提案する。これらの埋め込みは、各サンプルのセマンティックおよび構造パターンをキャプチャし、マルチクラスのマルウェア分類のための1次元畳み込みニューラルネットワーク(1D CNN)によって処理される。
論文参考訳（メタデータ） (2025-09-18T01:24:12Z)
PRISM: Robust VLM Alignment with Principled Reasoning for Integrated Safety in Multimodality [41.04710068888387]
PRISM (Principled Reasoning for Integrated Safety in Multimodality) は、視覚言語モデル(VLM)を協調するシステム2のようなフレームワークである。我々のフレームワークは2つの重要なコンポーネントで構成されている。PRISM-CoTは安全を意識したチェーン・オブ・プリート推論を教えるデータセットであり、PRISM-DPOはモンテカルロ木探索(MCTS)によって生成される。総合的な評価は、PRISMの有効性を示し、Qwen2-VLのJailbreakV-28Kの0.15%、LLaVA-1.5のVLBreakの以前のベストメソッドよりも90%改善した。
論文参考訳（メタデータ） (2025-08-26T03:45:19Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文参考訳（メタデータ） (2025-05-10T16:04:52Z)
Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文参考訳（メタデータ） (2025-03-14T17:39:45Z)
SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。 FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文参考訳（メタデータ） (2024-03-23T14:04:48Z)
Code Polymorphism Meets Code Encryption: Confidentiality and Side-Channel Protection of Software Components [0.0]
PolEnは、サイドチャネル攻撃を効果的に軽減するために、対策を組み合わせるツールチェーンとプロセッサアーキテクチャである。コード暗号化はプロセッサ拡張によってサポートされ、マシン命令はCPU内でのみ復号化される。プログラムの可観測環境を定期的に変更し、攻撃者が予測できないようにする。
論文参考訳（メタデータ） (2023-10-11T09:16:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。