論文の概要: Pluvio: Assembly Clone Search for Out-of-domain Architectures and
Libraries through Transfer Learning and Conditional Variational Information
Bottleneck
- arxiv url: http://arxiv.org/abs/2307.10631v1
- Date: Thu, 20 Jul 2023 06:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:18:37.009668
- Title: Pluvio: Assembly Clone Search for Out-of-domain Architectures and
Libraries through Transfer Learning and Conditional Variational Information
Bottleneck
- Title(参考訳): Pluvio: トランスファーラーニングと条件変分情報ボトルネックによるドメイン外アーキテクチャとライブラリのアセンブリクローン検索
- Authors: Zhiwei Fu, Steven H. H. Ding, Furkan Alaca, Benjamin C. M. Fung,
Philippe Charland
- Abstract要約: アセンブリクローン検索は、リリースされた実行ファイルの再利用によって生じる脆弱性のあるコードを特定するのに有効である。
組立クローン探索に関する最近の研究は、組立コードの変種に合わせて機械学習に基づく手法を用いる傾向を示している。
本稿では,大規模な事前学習型自然言語モデルによる人間の共通知識を,移動学習の形で,組立クローン探索のための現在の学習に基づくアプローチに組み込むことを提案する。
- 参考スコア(独自算出の注目度): 6.230859543111394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The practice of code reuse is crucial in software development for a faster
and more efficient development lifecycle. In reality, however, code reuse
practices lack proper control, resulting in issues such as vulnerability
propagation and intellectual property infringements. Assembly clone search, a
critical shift-right defence mechanism, has been effective in identifying
vulnerable code resulting from reuse in released executables. Recent studies on
assembly clone search demonstrate a trend towards using machine learning-based
methods to match assembly code variants produced by different toolchains.
However, these methods are limited to what they learn from a small number of
toolchain variants used in training, rendering them inapplicable to unseen
architectures and their corresponding compilation toolchain variants.
This paper presents the first study on the problem of assembly clone search
with unseen architectures and libraries. We propose incorporating human common
knowledge through large-scale pre-trained natural language models, in the form
of transfer learning, into current learning-based approaches for assembly clone
search. Transfer learning can aid in addressing the limitations of the existing
approaches, as it can bring in broader knowledge from human experts in assembly
code. We further address the sequence limit issue by proposing a reinforcement
learning agent to remove unnecessary and redundant tokens. Coupled with a new
Variational Information Bottleneck learning strategy, the proposed system
minimizes the reliance on potential indicators of architectures and
optimization settings, for a better generalization of unseen architectures. We
simulate the unseen architecture clone search scenarios and the experimental
results show the effectiveness of the proposed approach against the
state-of-the-art solutions.
- Abstract(参考訳): コード再利用の実践は、より速くより効率的な開発ライフサイクルのためにソフトウェア開発において不可欠です。
しかし実際には、コードの再利用プラクティスは適切なコントロールを欠いているため、脆弱性の伝播や知的財産権侵害といった問題が発生する。
重要なシフトライト防御メカニズムであるアセンブリクローン検索は、リリースされた実行ファイルの再利用による脆弱性のあるコードの識別に有効である。
組立クローン探索に関する最近の研究は、異なるツールチェーンが生成する組立コード変種にマッチする機械学習ベースの手法を使う傾向を示している。
しかしながら、これらのメソッドはトレーニングで使用される少数のツールチェーンの変種から学んだことに限定されており、見当たらないアーキテクチャと対応するコンパイルツールチェーンの変種には適用できない。
本稿では,未知のアーキテクチャとライブラリを用いたアセンブリクローン探索の問題に関する最初の研究を行う。
本研究は,大規模に訓練された自然言語モデルを用いて,集団クローン探索のための現在の学習に基づくアプローチに人間の共通知識を組み入れることを提案する。
トランスファー学習は、アセンブリコードの人間の専門家から幅広い知識をもたらすことができるため、既存のアプローチの制限に対処するのに役立つ。
さらに,不要かつ冗長なトークンを削除するために強化学習エージェントを提案することで,シーケンス制限問題にも対処する。
新しい変分情報ボトルネック学習戦略と組み合わされ、提案システムはアーキテクチャの潜在的な指標と最適化設定への依存を最小化し、未発見のアーキテクチャをより一般化する。
我々は,未解決のアーキテクチャクローン探索シナリオをシミュレートし,提案手法が最先端ソリューションに対して有効であることを示す。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。
CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文 参考訳(メタデータ) (2024-06-18T06:52:14Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation [9.477734501499274]
コード埋め込みを対照的な学習方法で学習する新しいフレームワークであるTransformCodeを提案する。
我々のフレームワークはエンコーダに依存しない言語に依存しないので、どんなエンコーダモデルでも活用でき、どんなプログラミング言語でも扱える。
論文 参考訳(メタデータ) (2023-11-10T09:05:23Z) - Towards Understanding the Capability of Large Language Models on Code
Clone Detection: A Survey [40.99060616674878]
大規模言語モデル(LLM)は、様々なコード関連の知識を持ち、様々なソフトウェア工学の課題に対して汎用的である。
本稿では,クローン検出のためのLLMを包括的に評価し,異なるクローンタイプ,言語,プロンプトを網羅する。
従来の手法を超越した複雑な意味的クローンの検出において,高度なLCMが優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-02T14:56:01Z) - Bayesian Program Learning by Decompiling Amortized Knowledge [50.960612835957875]
本稿では,ニューラルサーチポリシーを直接活用し,その記憶された知識を効果的に「分解」し,関連するプログラムコンポーネントを抽出する,新たな学習手法を提案する。
これにより、より強力な償却推論が実現され、探索幅を減らすために学習した償却知識も探索深度を減らすために使用されるようになった。
論文 参考訳(メタデータ) (2023-06-13T15:35:01Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - SimCLF: A Simple Contrastive Learning Framework for Function-level
Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。
我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。
SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文 参考訳(メタデータ) (2022-09-06T12:09:45Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - LibFewShot: A Comprehensive Library for Few-shot Learning [78.58842209282724]
近年,画像分類に注目が集まり,近年顕著な進歩が見られた。
近年の研究では、データ強化、事前学習、知識蒸留、自己超越といった多くの一般的な手法や技法が、数発の学習法の性能を大幅に向上させる可能性があることが暗黙的に示されている。
そこで本研究では,PyTorchに固有の単一言語を組み込んだ一貫したフレームワークにおいて,17の最先端の複数ショット学習手法を再実装することにより,小ショット学習のための総合ライブラリ(LibFewShot)を提案する。
論文 参考訳(メタデータ) (2021-09-10T14:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。