Fugu-MT 論文翻訳(概要): Simplifying MBA Expression Using E-Graphs

論文の概要: Simplifying MBA Expression Using E-Graphs

arxiv url: http://arxiv.org/abs/2404.05431v1
Date: Mon, 8 Apr 2024 12:02:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 14:34:53.551225
Title: Simplifying MBA Expression Using E-Graphs
Title（参考訳）: Eグラフを用いたMBA表現の簡易化
Authors: Seoksu Lee, Hyeongchang Jeon, Eun-Sun Cho,
Abstract要約: Mixed Boolean Arithmetic (MBA) obfuscationは、既存のコードの難読化技術を用いて解読するのが最も難しいと考えられている。我々は、電子グラフデータ構造を用いて、同じ意味論の複数の表現を効率的に保持し、項を書き直し、より単純な表現を見つける。
参考スコア（独自算出の注目度）: 1.1879716317856948
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code obfuscation involves the addition of meaningless code or the complication of existing code in order to make a program difficult to reverse engineer. In recent years, MBA (Mixed Boolean Arithmetic) obfuscation has been applied to virus and malware code to impede expert analysis. Among the various obfuscation techniques, Mixed Boolean Arithmetic (MBA) obfuscation is considered the most challenging to decipher using existing code deobfuscation techniques. In this paper, we have attempted to simplify the MBA expression. We use an e-graph data structure to efficiently hold multiple expressions of the same semantics to systematically rewrite terms and find simpler expressions. The preliminary experimental result shows that our e-graph based MBA deobfuscation approach works faster with reasonable performance than other approaches do.
Abstract（参考訳）: コードの難読化は、プログラムのリバースエンジニアを難しくするために、無意味なコードの追加や既存のコードの複雑さを伴う。近年、MBA (Mixed Boolean Arithmetic) の難読化がウイルスやマルウェアのコードに適用され、専門家による分析を阻害している。様々な難読化技術の中で、MBA(Mixed Boolean Arithmetic)難読化は、既存のコードの難読化技術を用いて解読するのが最も難しいと考えられている。本稿では,MBA表現の簡略化を試みた。我々は、電子グラフデータ構造を用いて、同じ意味論の複数の表現を効率的に保持し、用語を体系的に書き直し、より単純な表現を見つける。予備的な実験結果から,我々の電子グラフに基づくMBA難読化手法は,他の手法よりも合理的な性能でより高速に機能することが示された。

関連論文リスト

ReSMT: An SMT-Based Tool for Reverse Engineering [2.2058293096044586]
ソフトウェア難読化技術は、機能を変更せずにコードを理解しにくくする。難読化コードのリバースエンジニアリングは、非常に難しい。難読化コードのリバースエンジニアリングにおける課題に対処するための,新しい自動化ツールを提案する。
論文参考訳（メタデータ） (2025-12-26T16:29:31Z)
How Do Semantically Equivalent Code Transformations Impact Membership Inference on LLMs for Code? [56.42119949944239]
意味論的に等価なコード変換規則がMI検出の回避に有効かどうかを検討する。各ルールで最悪の場合、モデルの精度はわずか1.5%低下する。コードのための大規模言語モデルをトレーニングするためのライセンスコンプライアンスの実施において,我々の結果は重大な欠陥を露呈する。
論文参考訳（メタデータ） (2025-12-17T14:12:54Z)
RECODE: Reasoning Through Code Generation for Visual Question Answering [68.86938437188964]
我々は、検証可能な視覚的推論のための新しいモダリティとして、視覚を実行可能コードにリバースエンジニアリングするプロセスであるデレンダリングを活用することを提案する。我々の研究は、実行可能コードにおける視覚的認識の基盤が、より正確で検証可能なマルチモーダル推論への新たな道を提供することを示した。
論文参考訳（メタデータ） (2025-10-15T17:05:37Z)
gMBA: Expression Semantic Guided Mixed Boolean-Arithmetic Deobfuscation Using Transformer Architectures [1.7186863539230333]
Mixed Boolean-Arithmetic (MBA) obfuscationは、プログラムを分析がより複雑である形式に変換することにより、知的財産権を保護する。伝統的なMBAの難読化法は、これらの表現をブラックボックスの一部として考慮し、内部のセマンティック情報を見落としていることが多い。本稿では,表現の振舞いを自動的に表現する真理表を提案する。
論文参考訳（メタデータ） (2025-06-30T09:03:13Z)
Simplicity by Obfuscation: Evaluating LLM-Driven Code Transformation with Semantic Elasticity [4.458584890504334]
コードの難読化は、リバースエンジニアリングと知的財産の盗難を防ぐことを目的としている。近年の大規模言語モデルの発展は、様々な分野における実践的応用の道を開いた。この研究は、LLMがPythonのソースコードを難読化する能力について実証的研究を行った。
論文参考訳（メタデータ） (2025-04-18T18:29:23Z)
The Code Barrier: What LLMs Actually Understand? [7.407441962359689]
本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
論文参考訳（メタデータ） (2025-04-14T14:11:26Z)
Identifying Obfuscated Code through Graph-Based Semantic Analysis of Binary Code [5.181058136007981]
本稿では,グラフを用いた機能レベルの難読化検出の問題について検討する。様々な難読化型と難読化剤を考慮し、2つの複雑なデータセットを生成する。提案手法は,特に難易度の高い11クラス分類タスクや,実用的なマルウェア解析の例において,良好な結果を示す。
論文参考訳（メタデータ） (2025-04-02T08:36:27Z)
ObfusQate: Unveiling the First Quantum Program Obfuscation Framework [0.0]
ObfusQateは、古典的および量子的プログラムのセキュリティを強化するために、量子プリミティブを使用して難読化を行う新しいツールである。我々は、量子回路レベルの難読化とコードレベルの難読化という2つの主要な難読化のカテゴリを設計、実装した。
論文参考訳（メタデータ） (2025-03-31T07:02:25Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文参考訳（メタデータ） (2025-03-04T05:39:24Z)
SECRET: Towards Scalable and Efficient Code Retrieval via Segmented Deep Hashing [83.35231185111464]
ディープラーニングは、検索パラダイムを語彙ベースのマッチングから、ソースコードとクエリをベクトル表現にエンコードした。従来の研究では、クエリやコードスニペットのハッシュコードを生成し、ハミング距離を使ってコード候補を高速にリコールするディープハッシュベースの手法が提案されている。提案手法は,既存の深層ハッシュ法によって計算された長いハッシュコードを,反復的学習戦略により複数の短いハッシュコードセグメントに変換する手法である。
論文参考訳（メタデータ） (2024-12-16T12:51:35Z)
Obfuscation as Instruction Decorrelation [0.24578723416255752]
textitinstruction decorrelationは、現実世界のプログラムの命令を互いに独立させる新しいアプローチである。この作業は、一般的なハードウェア上で実行可能な、よりセキュアな難読化技術につながる可能性がある。
論文参考訳（メタデータ） (2024-11-08T13:50:33Z)
Mixture of Parrots: Experts improve memorization more than reasoning [72.445819694797]
専門家の数が増えるにつれて、推論能力が飽和している間に記憶性能が一貫して向上することを示す。専門家の増加は知識集約的なタスクの解決に役立ちますが、推論タスクには同じようなメリットが得られません。
論文参考訳（メタデータ） (2024-10-24T17:54:41Z)
CodeCipher: Learning to Obfuscate Source Code Against LLMs [5.872773591957006]
我々は,LLMからの応答を保存しながら,コードからプライバシを乱す新しい方法であるCodeCipherを提案する。 CodeCipher は LLM の埋め込み行列を変換し、各行が元の行列内の別の単語に対応するようにし、難読化ソースコードのためのトークンとトークンの混同マッピングを生成する。その結果,LLMの性能を保ちながらソースコードのプライバシを混乱させることに成功した。
論文参考訳（メタデータ） (2024-10-08T08:28:54Z)
Deobfuscation of Semi-Linear Mixed Boolean-Arithmetic Expressions [0.0]
MBA(Mixed-Arithmetic obfuscation)は、単純な表現を意味論的に等価だがより複雑な組み合わせに変換する手法である。より広範な表現のクラスを単純化できるSiMBAの拡張を提案する。
論文参考訳（メタデータ） (2024-06-14T13:27:40Z)
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff [16.80314690163063]
大きな言語モデル(LLM)でソースコードを反復的に改善し、修復することは、1ショットで構築するには複雑すぎるプログラムを生成する一般的な方法として現れている。ここでは、リファインメントが探索と露見のトレードオフを露呈していることを示します。ほとんどのテストケースをパスするプログラムをリファイン化したり、考慮の少ないプログラムをリファインダでリファインダすることです。
論文参考訳（メタデータ） (2024-05-26T04:00:30Z)
Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文参考訳（メタデータ） (2024-03-09T09:04:53Z)
Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large Language Models [74.95486528482327]
コードプロンプト(code prompting)は、ゼロショットバージョンと少数ショットバージョンの両方を持ち、中間ステップとしてコードをトリガーするニューラルシンボルプロンプトである。我々は,記号的推論と算術的推論を含む7つの広く使用されているベンチマーク実験を行った。
論文参考訳（メタデータ） (2023-05-29T15:14:09Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
Simplify Your Law: Using Information Theory to Deduplicate Legal Documents [1.598510071115958]
法文に対する重複句検出問題を導入し,その解法としてDupexアルゴリズムを提案する。 Dupexは、与えられた入力テキストを最もよく圧縮するパターンと呼ばれる、重複したフレーズの集合を識別する。
論文参考訳（メタデータ） (2021-10-02T06:19:14Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)
Exposing Semantic Segmentation Failures via Maximum Discrepancy Competition [102.75463782627791]
オープンビジュアルの世界において,既存の意味セグメンテーション手法の失敗を露呈することで,質問に答える。モデル改ざんに関するこれまでの研究に触発され、任意に大きい画像セットから始まり、2つのセグメンテーション方法間の差分法(MAD)をMAximizingすることによって、小さな画像セットを自動的にサンプリングします。選択された画像は、2つの方法のいずれか(または両方)を偽造する最大の可能性を持っている。また,MADコンペティションにおいて,障害の露呈が困難であるセグメンテーション法について検討した。
論文参考訳（メタデータ） (2021-02-27T16:06:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。