Fugu-MT 論文翻訳(概要): Pluvio: Assembly Clone Search for Out-of-domain Architectures and Libraries through Transfer Learning and Conditional Variational Information Bottleneck

論文の概要: Pluvio: Assembly Clone Search for Out-of-domain Architectures and Libraries through Transfer Learning and Conditional Variational Information Bottleneck

arxiv url: http://arxiv.org/abs/2307.10631v1
Date: Thu, 20 Jul 2023 06:55:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-21 14:18:37.009668
Title: Pluvio: Assembly Clone Search for Out-of-domain Architectures and Libraries through Transfer Learning and Conditional Variational Information Bottleneck
Title（参考訳）: Pluvio: トランスファーラーニングと条件変分情報ボトルネックによるドメイン外アーキテクチャとライブラリのアセンブリクローン検索
Authors: Zhiwei Fu, Steven H. H. Ding, Furkan Alaca, Benjamin C. M. Fung, Philippe Charland
Abstract要約: アセンブリクローン検索は、リリースされた実行ファイルの再利用によって生じる脆弱性のあるコードを特定するのに有効である。組立クローン探索に関する最近の研究は、組立コードの変種に合わせて機械学習に基づく手法を用いる傾向を示している。本稿では,大規模な事前学習型自然言語モデルによる人間の共通知識を,移動学習の形で,組立クローン探索のための現在の学習に基づくアプローチに組み込むことを提案する。
参考スコア（独自算出の注目度）: 6.230859543111394
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The practice of code reuse is crucial in software development for a faster and more efficient development lifecycle. In reality, however, code reuse practices lack proper control, resulting in issues such as vulnerability propagation and intellectual property infringements. Assembly clone search, a critical shift-right defence mechanism, has been effective in identifying vulnerable code resulting from reuse in released executables. Recent studies on assembly clone search demonstrate a trend towards using machine learning-based methods to match assembly code variants produced by different toolchains. However, these methods are limited to what they learn from a small number of toolchain variants used in training, rendering them inapplicable to unseen architectures and their corresponding compilation toolchain variants. This paper presents the first study on the problem of assembly clone search with unseen architectures and libraries. We propose incorporating human common knowledge through large-scale pre-trained natural language models, in the form of transfer learning, into current learning-based approaches for assembly clone search. Transfer learning can aid in addressing the limitations of the existing approaches, as it can bring in broader knowledge from human experts in assembly code. We further address the sequence limit issue by proposing a reinforcement learning agent to remove unnecessary and redundant tokens. Coupled with a new Variational Information Bottleneck learning strategy, the proposed system minimizes the reliance on potential indicators of architectures and optimization settings, for a better generalization of unseen architectures. We simulate the unseen architecture clone search scenarios and the experimental results show the effectiveness of the proposed approach against the state-of-the-art solutions.
Abstract（参考訳）: コード再利用の実践は、より速くより効率的な開発ライフサイクルのためにソフトウェア開発において不可欠です。しかし実際には、コードの再利用プラクティスは適切なコントロールを欠いているため、脆弱性の伝播や知的財産権侵害といった問題が発生する。重要なシフトライト防御メカニズムであるアセンブリクローン検索は、リリースされた実行ファイルの再利用による脆弱性のあるコードの識別に有効である。組立クローン探索に関する最近の研究は、異なるツールチェーンが生成する組立コード変種にマッチする機械学習ベースの手法を使う傾向を示している。しかしながら、これらのメソッドはトレーニングで使用される少数のツールチェーンの変種から学んだことに限定されており、見当たらないアーキテクチャと対応するコンパイルツールチェーンの変種には適用できない。本稿では,未知のアーキテクチャとライブラリを用いたアセンブリクローン探索の問題に関する最初の研究を行う。本研究は,大規模に訓練された自然言語モデルを用いて,集団クローン探索のための現在の学習に基づくアプローチに人間の共通知識を組み入れることを提案する。トランスファー学習は、アセンブリコードの人間の専門家から幅広い知識をもたらすことができるため、既存のアプローチの制限に対処するのに役立つ。さらに,不要かつ冗長なトークンを削除するために強化学習エージェントを提案することで,シーケンス制限問題にも対処する。新しい変分情報ボトルネック学習戦略と組み合わされ、提案システムはアーキテクチャの潜在的な指標と最適化設定への依存を最小化し、未発見のアーキテクチャをより一般化する。我々は,未解決のアーキテクチャクローン探索シナリオをシミュレートし,提案手法が最先端ソリューションに対して有効であることを示す。

関連論文リスト

InnateCoder: Learning Programmatic Options with Foundation Models [13.218260503808056]
InnateCoderは、ファンデーションモデルにエンコードされた人間の知識を活用してプログラムポリシーを提供するシステムである。学習オプションに対する既存のアプローチとは対照的に、InnateCoderは、ゼロショット設定で基礎モデルに符号化された一般的な人間の知識から学習する。 InnateCoderは、オプションを使ったり、経験から学んだりしないシステムのバージョンよりも、よりサンプル効率が高いことを示す。
論文参考訳（メタデータ） (2025-05-18T17:57:57Z)
LLM Library Learning Fails: A LEGO-Prover Case Study [20.25809428140996]
レゴプロバーは, 数学的推論のための再利用可能な補題を学習する。学習したレムマの直接再利用の証拠は見つからず、学習したレムマのソフト再利用に対する証拠も見つからない。本研究は,これらの手法の有効性について,重大な誤解が存在することを示唆している。
論文参考訳（メタデータ） (2025-04-03T21:53:51Z)
ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [49.04652315815501]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文参考訳（メタデータ） (2025-02-17T03:42:28Z)
Multimodal Instruction Disassembly with Covariate Shift Adaptation and Real-time Implementation [3.70729078195191]
我々は、ターゲットデバイスから電力とEMを同時に収集できる新しい小型プラットフォーム、RASCv3を導入する。我々は情報理論を用いてパワーとEMトレースから特徴を組み合わせ、選択するための新しいアプローチを考案した。オフラインおよびリアルタイムの命令分解器の認識率は、単一および複数モードの場合と比較する。
論文参考訳（メタデータ） (2024-12-10T17:00:23Z)
Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。 IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-24T09:09:20Z)
Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。 CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文参考訳（メタデータ） (2024-06-18T06:52:14Z)
AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。 5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文参考訳（メタデータ） (2023-11-13T12:20:48Z)
TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation [9.477734501499274]
コード埋め込みを対照的な学習方法で学習する新しいフレームワークであるTransformCodeを提案する。我々のフレームワークはエンコーダに依存しない言語に依存しないので、どんなエンコーダモデルでも活用でき、どんなプログラミング言語でも扱える。
論文参考訳（メタデータ） (2023-11-10T09:05:23Z)
Towards Understanding the Capability of Large Language Models on Code Clone Detection: A Survey [40.99060616674878]
大規模言語モデル(LLM)は、様々なコード関連の知識を持ち、様々なソフトウェア工学の課題に対して汎用的である。本稿では,クローン検出のためのLLMを包括的に評価し,異なるクローンタイプ,言語,プロンプトを網羅する。従来の手法を超越した複雑な意味的クローンの検出において,高度なLCMが優れていることがわかった。
論文参考訳（メタデータ） (2023-08-02T14:56:01Z)
Bayesian Program Learning by Decompiling Amortized Knowledge [50.960612835957875]
本稿では,ニューラルサーチポリシーを直接活用し,その記憶された知識を効果的に「分解」し,関連するプログラムコンポーネントを抽出する,新たな学習手法を提案する。これにより、より強力な償却推論が実現され、探索幅を減らすために学習した償却知識も探索深度を減らすために使用されるようになった。
論文参考訳（メタデータ） (2023-06-13T15:35:01Z)
CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文参考訳（メタデータ） (2023-06-05T20:39:08Z)
SimCLF: A Simple Contrastive Learning Framework for Function-level Binary Embeddings [2.1222884030559315]
関数レベルのバイナリ埋め込みのための単純なコントラスト学習フレームワークSimCLFを提案する。我々は教師なし学習アプローチを採用し、インスタンス識別としてバイナリコード類似性検出を定式化する。 SimCLFは分解されたバイナリ関数を直接操作し、任意のエンコーダで実装できる。
論文参考訳（メタデータ） (2022-09-06T12:09:45Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
LibFewShot: A Comprehensive Library for Few-shot Learning [78.58842209282724]
近年,画像分類に注目が集まり,近年顕著な進歩が見られた。近年の研究では、データ強化、事前学習、知識蒸留、自己超越といった多くの一般的な手法や技法が、数発の学習法の性能を大幅に向上させる可能性があることが暗黙的に示されている。そこで本研究では,PyTorchに固有の単一言語を組み込んだ一貫したフレームワークにおいて,17の最先端の複数ショット学習手法を再実装することにより,小ショット学習のための総合ライブラリ(LibFewShot)を提案する。
論文参考訳（メタデータ） (2021-09-10T14:12:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。