論文の概要: Beyond Embeddings: Interpretable Feature Extraction for Binary Code Similarity
- arxiv url: http://arxiv.org/abs/2509.23449v1
- Date: Sat, 27 Sep 2025 18:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.23281
- Title: Beyond Embeddings: Interpretable Feature Extraction for Binary Code Similarity
- Title(参考訳): Beyond Embeddings: バイナリコードの類似性に対する解釈可能な特徴抽出
- Authors: Charles E. Gagnon, Steven H. H. Ding, Philippe Charland, Benjamin C. M. Fung,
- Abstract要約: 言語モデルに基づくエージェントを用いて、アセンブリコードの構造化推論分析を行う。
手作りの機能とは違って、よりリッチで適応性がある。埋め込みとは違い、人間可読性があり、保守性があり、逆あるいはリレーショナルインデックスで直接検索できる。
- 参考スコア(独自算出の注目度): 3.9488518969307305
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Binary code similarity detection is a core task in reverse engineering. It supports malware analysis and vulnerability discovery by identifying semantically similar code in different contexts. Modern methods have progressed from manually engineered features to vector representations. Hand-crafted statistics (e.g., operation ratios) are interpretable, but shallow and fail to generalize. Embedding-based methods overcome this by learning robust cross-setting representations, but these representations are opaque vectors that prevent rapid verification. They also face a scalability-accuracy trade-off, since high-dimensional nearest-neighbor search requires approximations that reduce precision. Current approaches thus force a compromise between interpretability, generalizability, and scalability. We bridge these gaps using a language model-based agent to conduct structured reasoning analysis of assembly code and generate features such as input/output types, side effects, notable constants, and algorithmic intent. Unlike hand-crafted features, they are richer and adaptive. Unlike embeddings, they are human-readable, maintainable, and directly searchable with inverted or relational indexes. Without any matching training, our method respectively achieves 42% and 62% for recall@1 in cross-architecture and cross-optimization tasks, comparable to embedding methods with training (39% and 34%). Combined with embeddings, it significantly outperforms the state-of-the-art, demonstrating that accuracy, scalability, and interpretability can coexist.
- Abstract(参考訳): バイナリコード類似性検出はリバースエンジニアリングにおける中核的なタスクである。
異なるコンテキストで意味的に類似したコードを識別することで、マルウェアの分析と脆弱性発見をサポートする。
現代の手法は手動で設計した機能からベクトル表現へと進歩してきた。
手作り統計(例えば演算比)は解釈可能であるが、浅く一般化できない。
埋め込みベースの手法は、堅牢なクロスセット表現を学習することでこれを克服するが、これらの表現は、迅速な検証を防ぐ不透明なベクトルである。
高い次元の近接探索は精度を下げる近似を必要とするため、スケーラビリティと精度のトレードオフにも直面する。
したがって、現在のアプローチは解釈可能性、一般化可能性、スケーラビリティの妥協を迫られる。
言語モデルに基づくエージェントを用いてこれらのギャップをブリッジし、アセンブリコードの構造化推論分析を行い、入力/出力タイプ、副作用、注目すべき定数、アルゴリズム意図などの特徴を生成する。
手作りの特徴とは異なり、より豊かで適応性がある。
埋め込みとは違って、人間可読性、保守性、および逆あるいはリレーショナルインデックスで直接検索可能である。
整合性トレーニングがなければ, クロスアーキテクチャおよびクロス最適化タスクにおいて, リコール@1の42%と62%を達成でき, トレーニング付き埋め込み手法(39%, 34%)に匹敵する。
埋め込みと組み合わせることで、最先端を著しく上回り、正確性、スケーラビリティ、解釈可能性が共存可能であることを示す。
関連論文リスト
- Verified Language Processing with Hybrid Explainability: A Technical Report [0.7066382982173529]
この問題に対処するために,ハイブリッドな説明責任を設計した新しいパイプラインを提案する。
我々の手法はグラフと論理を組み合わせて一階述語論理表現を生成し、モンタギュー文法を通して機械的・人間的可読表現を生成する。
予備的な結果は,本手法が全文類似性を捉える上での有効性を示している。
論文 参考訳(メタデータ) (2025-07-07T14:00:05Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Semantic-embedded Similarity Prototype for Scene Recognition [12.236534954126155]
本稿では,意味的知識に基づく類似性プロトタイプを提案する。
これにより、実際の計算コストを増大させることなく、シーン認識ネットワークの精度を向上させることができる。
我々の類似性プロトタイプは、既存のネットワークの性能を向上するとともに、実際の展開における計算負荷の増大を回避します。
論文 参考訳(メタデータ) (2023-08-11T01:11:46Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - SimCLF: A Simple Contrastive Learning Framework for Function-level
Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。
我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文 参考訳(メタデータ) (2022-09-06T12:09:45Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing [1.8899300124593648]
本稿では,変分オートエンコーダに基づくハッシュ手法のロバスト性と,監督の欠如について検討する。
本稿では,モデルがラベル分布予測を用いて一対の目的を実現する新しい監視手法を提案する。
実験の結果,いずれの手法もハッシュコードの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-17T07:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。