論文の概要: Simplifying MBA Expression Using E-Graphs
- arxiv url: http://arxiv.org/abs/2404.05431v1
- Date: Mon, 8 Apr 2024 12:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-09 14:34:53.551225
- Title: Simplifying MBA Expression Using E-Graphs
- Title(参考訳): Eグラフを用いたMBA表現の簡易化
- Authors: Seoksu Lee, Hyeongchang Jeon, Eun-Sun Cho,
- Abstract要約: Mixed Boolean Arithmetic (MBA) obfuscationは、既存のコードの難読化技術を用いて解読するのが最も難しいと考えられている。
我々は、電子グラフデータ構造を用いて、同じ意味論の複数の表現を効率的に保持し、項を書き直し、より単純な表現を見つける。
- 参考スコア(独自算出の注目度): 1.1879716317856948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code obfuscation involves the addition of meaningless code or the complication of existing code in order to make a program difficult to reverse engineer. In recent years, MBA (Mixed Boolean Arithmetic) obfuscation has been applied to virus and malware code to impede expert analysis. Among the various obfuscation techniques, Mixed Boolean Arithmetic (MBA) obfuscation is considered the most challenging to decipher using existing code deobfuscation techniques. In this paper, we have attempted to simplify the MBA expression. We use an e-graph data structure to efficiently hold multiple expressions of the same semantics to systematically rewrite terms and find simpler expressions. The preliminary experimental result shows that our e-graph based MBA deobfuscation approach works faster with reasonable performance than other approaches do.
- Abstract(参考訳): コードの難読化は、プログラムのリバースエンジニアを難しくするために、無意味なコードの追加や既存のコードの複雑さを伴う。
近年、MBA (Mixed Boolean Arithmetic) の難読化がウイルスやマルウェアのコードに適用され、専門家による分析を阻害している。
様々な難読化技術の中で、MBA(Mixed Boolean Arithmetic)難読化は、既存のコードの難読化技術を用いて解読するのが最も難しいと考えられている。
本稿では,MBA表現の簡略化を試みた。
我々は、電子グラフデータ構造を用いて、同じ意味論の複数の表現を効率的に保持し、用語を体系的に書き直し、より単純な表現を見つける。
予備的な実験結果から,我々の電子グラフに基づくMBA難読化手法は,他の手法よりも合理的な性能でより高速に機能することが示された。
関連論文リスト
- Simplicity by Obfuscation: Evaluating LLM-Driven Code Transformation with Semantic Elasticity [4.458584890504334]
コードの難読化は、リバースエンジニアリングと知的財産の盗難を防ぐことを目的としている。
近年の大規模言語モデルの発展は、様々な分野における実践的応用の道を開いた。
この研究は、LLMがPythonのソースコードを難読化する能力について実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-18T18:29:23Z) - The Code Barrier: What LLMs Actually Understand? [7.407441962359689]
本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。
難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。
本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T14:11:26Z) - Identifying Obfuscated Code through Graph-Based Semantic Analysis of Binary Code [5.181058136007981]
本稿では,グラフを用いた機能レベルの難読化検出の問題について検討する。
様々な難読化型と難読化剤を考慮し、2つの複雑なデータセットを生成する。
提案手法は,特に難易度の高い11クラス分類タスクや,実用的なマルウェア解析の例において,良好な結果を示す。
論文 参考訳(メタデータ) (2025-04-02T08:36:27Z) - ObfusQate: Unveiling the First Quantum Program Obfuscation Framework [0.0]
ObfusQateは、古典的および量子的プログラムのセキュリティを強化するために、量子プリミティブを使用して難読化を行う新しいツールである。
我々は、量子回路レベルの難読化とコードレベルの難読化という2つの主要な難読化のカテゴリを設計、実装した。
論文 参考訳(メタデータ) (2025-03-31T07:02:25Z) - ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。
Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。
本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文 参考訳(メタデータ) (2025-03-27T23:08:53Z) - SECRET: Towards Scalable and Efficient Code Retrieval via Segmented Deep Hashing [83.35231185111464]
ディープラーニングは、検索パラダイムを語彙ベースのマッチングから、ソースコードとクエリをベクトル表現にエンコードした。
従来の研究では、クエリやコードスニペットのハッシュコードを生成し、ハミング距離を使ってコード候補を高速にリコールするディープハッシュベースの手法が提案されている。
提案手法は,既存の深層ハッシュ法によって計算された長いハッシュコードを,反復的学習戦略により複数の短いハッシュコードセグメントに変換する手法である。
論文 参考訳(メタデータ) (2024-12-16T12:51:35Z) - Obfuscation as Instruction Decorrelation [0.24578723416255752]
textitinstruction decorrelationは、現実世界のプログラムの命令を互いに独立させる新しいアプローチである。
この作業は、一般的なハードウェア上で実行可能な、よりセキュアな難読化技術につながる可能性がある。
論文 参考訳(メタデータ) (2024-11-08T13:50:33Z) - Mixture of Parrots: Experts improve memorization more than reasoning [72.445819694797]
専門家の数が増えるにつれて、推論能力が飽和している間に記憶性能が一貫して向上することを示す。
専門家の増加は知識集約的なタスクの解決に役立ちますが、推論タスクには同じようなメリットが得られません。
論文 参考訳(メタデータ) (2024-10-24T17:54:41Z) - CodeCipher: Learning to Obfuscate Source Code Against LLMs [5.872773591957006]
我々は,LLMからの応答を保存しながら,コードからプライバシを乱す新しい方法であるCodeCipherを提案する。
CodeCipher は LLM の埋め込み行列を変換し、各行が元の行列内の別の単語に対応するようにし、難読化ソースコードのためのトークンとトークンの混同マッピングを生成する。
その結果,LLMの性能を保ちながらソースコードのプライバシを混乱させることに成功した。
論文 参考訳(メタデータ) (2024-10-08T08:28:54Z) - Deobfuscation of Semi-Linear Mixed Boolean-Arithmetic Expressions [0.0]
MBA(Mixed-Arithmetic obfuscation)は、単純な表現を意味論的に等価だがより複雑な組み合わせに変換する手法である。
より広範な表現のクラスを単純化できるSiMBAの拡張を提案する。
論文 参考訳(メタデータ) (2024-06-14T13:27:40Z) - Code Repair with LLMs gives an Exploration-Exploitation Tradeoff [16.80314690163063]
大きな言語モデル(LLM)でソースコードを反復的に改善し、修復することは、1ショットで構築するには複雑すぎるプログラムを生成する一般的な方法として現れている。
ここでは、リファインメントが探索と露見のトレードオフを露呈していることを示します。ほとんどのテストケースをパスするプログラムをリファイン化したり、考慮の少ないプログラムをリファインダでリファインダすることです。
論文 参考訳(メタデータ) (2024-05-26T04:00:30Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large
Language Models [74.95486528482327]
コードプロンプト(code prompting)は、ゼロショットバージョンと少数ショットバージョンの両方を持ち、中間ステップとしてコードをトリガーするニューラルシンボルプロンプトである。
我々は,記号的推論と算術的推論を含む7つの広く使用されているベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-29T15:14:09Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Simplify Your Law: Using Information Theory to Deduplicate Legal
Documents [1.598510071115958]
法文に対する重複句検出問題を導入し,その解法としてDupexアルゴリズムを提案する。
Dupexは、与えられた入力テキストを最もよく圧縮するパターンと呼ばれる、重複したフレーズの集合を識別する。
論文 参考訳(メタデータ) (2021-10-02T06:19:14Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Exposing Semantic Segmentation Failures via Maximum Discrepancy
Competition [102.75463782627791]
オープンビジュアルの世界において,既存の意味セグメンテーション手法の失敗を露呈することで,質問に答える。
モデル改ざんに関するこれまでの研究に触発され、任意に大きい画像セットから始まり、2つのセグメンテーション方法間の差分法(MAD)をMAximizingすることによって、小さな画像セットを自動的にサンプリングします。
選択された画像は、2つの方法のいずれか(または両方)を偽造する最大の可能性を持っている。
また,MADコンペティションにおいて,障害の露呈が困難であるセグメンテーション法について検討した。
論文 参考訳(メタデータ) (2021-02-27T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。