Fugu-MT 論文翻訳(概要): Nova: Generative Language Models for Assembly Code with Hierarchical Attention and Contrastive Learning

論文の概要: Nova: Generative Language Models for Assembly Code with Hierarchical Attention and Contrastive Learning

arxiv url: http://arxiv.org/abs/2311.13721v5
Date: Mon, 21 Oct 2024 21:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.849604
Title: Nova: Generative Language Models for Assembly Code with Hierarchical Attention and Contrastive Learning
Title（参考訳）: Nova: 階層的注意とコントラスト学習を伴うアセンブリコードの生成言語モデル
Authors: Nan Jiang, Chengxiao Wang, Kevin Liu, Xiangzhe Xu, Lin Tan, Xiangyu Zhang, Petr Babkin,
Abstract要約: 本研究は,セマンティクスをより効果的に捉えるために,注目要約を構築する階層的注意機構を提案する。これらの技法を取り入れたこの研究は、アセンブリコードのためのジェネレーティブLLMであるNovaを開発した。 Novaは、バイナリコードの逆コンパイルに関する既存のテクニックを14.84 -- 21.58%(絶対パーセンテージポイントの改善)より高いPass@1とPass@10で上回り、最新のバイナリコード類似性検出テクニックを最大6.17%のRecall@1で上回ります。
参考スコア（独自算出の注目度）: 18.521914733617482
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Binary code analysis is the foundation of crucial tasks in the security domain; thus building effective binary analysis techniques is more important than ever. Large language models (LLMs) although have brought impressive improvement to source code tasks, do not directly generalize to assembly code due to the unique challenges of assembly: (1) the low information density of assembly and (2) the diverse optimizations in assembly code. To overcome these challenges, this work proposes a hierarchical attention mechanism that builds attention summaries to capture the semantics more effectively and designs contrastive learning objectives to train LLMs to learn assembly optimization. Equipped with these techniques, this work develops Nova, a generative LLM for assembly code. Nova outperforms existing techniques on binary code decompilation by up to 14.84 -- 21.58% (absolute percentage point improvement) higher Pass@1 and Pass@10, and outperforms the latest binary code similarity detection techniques by up to 6.17% Recall@1, showing promising abilities on both assembly generation and understanding tasks.
Abstract（参考訳）: バイナリコード分析はセキュリティ領域における重要なタスクの基盤です。大規模な言語モデル(LLM)は、ソースコードタスクに驚くべき改善をもたらしたが、アセンブリの独特な課題によりアセンブリコードに直接一般化するものではない。これらの課題を克服するため、本研究では、より効果的にセマンティクスを捉えるために注目要約を構築する階層的な注意機構を提案し、LLMを学習してアセンブリ最適化を学ぶための対照的な学習目標を設計する。これらの技法を取り入れたこの研究は、アセンブリコードのためのジェネレーティブLLMであるNovaを開発した。 Novaは、バイナリコードのデコンパイルで14.84 -- 21.58%(絶対パーセンテージポイントの改善)以上のPass@1とPass@10を上回り、最新のバイナリコード類似性検出技術で最大6.17%のRecall@1を上回り、アセンブリ生成と理解タスクの両方において有望な能力を示している。

関連論文リスト

An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2025-04-30T17:02:06Z)
ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning [33.53059396922164]
アセンブリコード分析と理解は、リバースエンジニアリングのようなアプリケーションにおいて重要な役割を果たす。従来のマスク付き言語モデリングアプローチは、自然言語の相互作用に明示的に焦点を合わせていない。本稿では、エンドツーエンドな構造意味的命令チューニングフレームワークであるアセンブリ・チューニングについて述べる。
論文参考訳（メタデータ） (2025-03-14T17:36:08Z)
A Comprehensive Survey of AI-Driven Advancements and Techniques in Automated Program Repair and Code Generation [0.0]
最近27の論文がレビューされ、2つのグループに分けられた。最初のグループは、意味的エラーの特定を含む、バグの検出と修復のための新しいメソッドで構成されている。 2つ目のグループはコード生成に精通しており、プログラミングとタスク固有のモデルのために微調整された汎用LLMの概要を提供している。また、識別子認識トレーニング、命令レベルでの微調整、セマンティックコード構造の導入など、コード生成を改善する方法も提示されている。
論文参考訳（メタデータ） (2024-11-12T06:47:54Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
zsLLMCode: An Effective Approach for Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
本稿では,大言語モデル(LLM)と文埋め込みモデルを用いて,新たなゼロショット手法であるzsLLMCodeを提案する。その結果,最先端の教師なしアプローチに対する提案手法の有効性と優位性を実証した。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2024-04-15T14:44:08Z)
CLAP: Learning Transferable Binary Code Representations with Natural Language Supervision [22.42846252594693]
本稿では,言語指導を利用してバイナリコードのより良い表現を学習するCLAP(Contrastive Language-Assembly Pre-training)を提案する。中心となるアプローチは、バイナリコードとセマンティックスの説明を効果的に整合させることで、優れたトランスファー学習能力を向上する。私たちは1億9500万のバイナリコードと説明を生成し、CLAPのプロトタイプをトレーニングしました。
論文参考訳（メタデータ） (2024-02-26T13:49:52Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models [37.8941430624661]
本研究では,バイナリコード理解のための大規模言語モデル (LLM) の可能性について検討する。 BinSumは557K以上のバイナリ関数の包括的なベンチマークとデータセットである。また,従来の完全マッチング手法を超越した意味的類似度尺度を提案する。
論文参考訳（メタデータ） (2023-12-15T08:32:28Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。