Fugu-MT 論文翻訳(概要): Fast, Fine-Grained Equivalence Checking for Neural Decompilers

論文の概要: Fast, Fine-Grained Equivalence Checking for Neural Decompilers

arxiv url: http://arxiv.org/abs/2501.04811v1
Date: Wed, 08 Jan 2025 19:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 17:34:41.320906
Title: Fast, Fine-Grained Equivalence Checking for Neural Decompilers
Title（参考訳）: ニューラルデコンパイラの高速かつ微細な等価チェック
Authors: Luke Dramko, Claire Le Goues, Edward J. Schwartz,
Abstract要約: ニューラルデコンパイラ用に設計された新しい命令レベルコード等価技術であるCodealignを導入する。コーダリンが等価アライメントをどのように生成するかを示し、その上でシンボリック実行と比較してコーダリンを評価する。
参考スコア（独自算出の注目度）: 7.421408987075001
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Neural decompilers are machine learning models that reconstruct the source code from an executable program. Critical to the lifecycle of any machine learning model is an evaluation of its effectiveness. However, existing techniques for evaluating neural decompilation models have substantial weaknesses, especially when it comes to showing the correctness of the neural decompiler's predictions. To address this, we introduce codealign, a novel instruction-level code equivalence technique designed for neural decompilers. We provide a formal definition of a relation between equivalent instructions, which we term an equivalence alignment. We show how codealign generates equivalence alignments, then evaluate codealign by comparing it with symbolic execution. Finally, we show how the information codealign provides-which parts of the functions are equivalent and how well the variable names match-is substantially more detailed than existing state-of-the-art evaluation metrics, which report unitless numbers measuring similarity.
Abstract（参考訳）: ニューラルデコンパイラ(Neural Decompiler)は、実行可能プログラムからソースコードを再構築する機械学習モデルである。あらゆる機械学習モデルのライフサイクルにとって重要なことは、その有効性を評価することである。しかしながら、ニューラルデコンパイルモデルを評価する既存の技術は、特にニューラルデコンパイルの予測の正確性を示す場合、重大な弱点がある。そこで我々は,ニューラルデコンパイラ用に設計された新しい命令レベルコード等価技術であるCodealignを紹介する。等価な命令間の関係を形式的に定義し、同値アライメント(英語版)と呼ぶ。コーダリンが等価アライメントをどのように生成するかを示し、その上でシンボリック実行と比較してコーダリンを評価する。最後に,関数のどの部分が等価か,変数名がどの程度うまく一致しているか,といった情報コーダリンがどのような情報を提供するかを示す。

関連論文リスト

How Different Tokenization Algorithms Impact LLMs and Transformer Models for Binary Code Analysis [0.0]
その重要性にもかかわらず、アセンブリコードのコンテキストにおけるトークン化は未探索領域のままである。我々は、アセンブリコードのユニークな特徴に合わせて、プリプロセスのカスタマイズオプションとプリトークン化ルールについて検討する。我々は,トークン化効率,語彙圧縮,組立符号の表現忠実度に基づくトークン化器の比較を行った。
論文参考訳（メタデータ） (2025-11-05T19:45:26Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
Idioms: Neural Decompilation With Joint Code and Type Prediction [7.421408987075001]
我々は,任意のLDMをニューラルデコンパイラに微調整する新たなトレーニングプロセスを導入し,そのデコンパイルと同時に適切なユーザ定義型を生成する。データ構造の様々な部分がプログラムの異なる部分によって操作できるという直感に触発されて、相互言語的コンテキストが、ユーザ定義型を扱う神経逆コンパイラの能力の向上に役立つことを示す。
論文参考訳（メタデータ） (2025-02-06T22:13:40Z)
StrTune: Data Dependence-based Code Slicing for Binary Similarity Detection with Fine-tuned Representation [5.41477941455399]
BCSDは、悪意のあるコードスニペットの識別や、コードパターンの比較によるバイナリパッチ解析といったバイナリタスクに対処することができる。バイナリは異なるコンパイル構成でコンパイルされるため、既存のアプローチはバイナリの類似性を比較する際にも注目すべき制限に直面している。データ依存に基づいてバイナリコードをスライスし,スライスレベルの微調整を行うStrTuneを提案する。
論文参考訳（メタデータ） (2024-11-19T12:20:08Z)
Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文参考訳（メタデータ） (2024-02-06T18:59:30Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文参考訳（メタデータ） (2023-05-18T16:02:04Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
Tree-constrained Pointer Generator for End-to-end Contextual Speech Recognition [16.160767678589895]
TCPGenは、アテンションベースのエンコーダデコーダとトランスデューサエンドツーエンドのASRモデルの両方に偏りのある単語のリストのような知識を組み込む。 TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするニューラルネットワークショートカットを生成する。
論文参考訳（メタデータ） (2021-09-01T21:41:59Z)
Semantic-aware Binary Code Representation with BERT [27.908093567605484]
バグ発見、マルウェア分析、コードクローン検出など、幅広いバイナリ分析アプリケーションでは、バイナリコード上でのコンテキスト意味の回復が必要である。近年,バイナリのコード表現を自動再構築するために,機械学習に基づくバイナリ解析手法が提案されている。本稿では,バイナリコードのセマンティックなコード表現を生成するためにBERTを利用するDeepSemanticを提案する。
論文参考訳（メタデータ） (2021-06-10T03:31:29Z)
Project-Level Encoding for Neural Source Code Summarization of Subroutines [6.939768185086755]
コード要約のモデルを改善するプロジェクトレベルのエンコーダを提案する。我々はこの表現を用いて、最先端のニューラルネットワーク要約技術のエンコーダを強化する。
論文参考訳（メタデータ） (2021-03-22T06:01:07Z)
CodeBLEU: a Method for Automatic Evaluation of Code Synthesis [57.87741831987889]
コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。 n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
論文参考訳（メタデータ） (2020-09-22T03:10:49Z)
A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文参考訳（メタデータ） (2020-05-01T23:29:36Z)
Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。自動エンコーダのコンテキストでデコードすることで更新される。ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文参考訳（メタデータ） (2020-02-27T05:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。