Fugu-MT 論文翻訳(概要): Nova$^+$: Generative Language Models for Binaries

論文の概要: Nova$^+$: Generative Language Models for Binaries

arxiv url: http://arxiv.org/abs/2311.13721v2
Date: Mon, 27 Nov 2023 18:22:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 10:02:25.906974
Title: Nova$^+$: Generative Language Models for Binaries
Title（参考訳）: Nova$^+$:バイナリ生成言語モデル
Authors: Nan Jiang, Chengxiao Wang, Kevin Liu, Xiangzhe Xu, Lin Tan, Xiangyu Zhang
Abstract要約: コード上で事前訓練された既存の生成型大規模言語モデル(LLM)は、コード生成、プログラムの修復、文書解析において顕著な効果を示している。バイナリコーパスで事前学習したLLMであるNovaとNova$+$を開発する。
参考スコア（独自算出の注目度）: 19.748950899724047
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Generative large language models (LLMs) pre-trained on code have shown impressive effectiveness in code generation, program repair, and document analysis. However, existing generative LLMs focus on source code and are not specialized for binaries. There are three main challenges for LLMs to model and learn binary code: hex-decimal values, complex global dependencies, and compiler optimization levels. To bring the benefit of LLMs to the binary domain, we develop Nova and Nova$^+$, which are LLMs pre-trained on binary corpora. Nova is pre-trained with the standard language modeling task, showing significantly better capability on five benchmarks for three downstream tasks: binary code similarity detection (BCSD), binary code translation (BCT), and binary code recovery (BCR), over GPT-3.5 and other existing techniques. We build Nova$^+$ to further boost Nova using two new pre-training tasks, i.e., optimization generation and optimization level prediction, which are designed to learn binary optimization and align equivalent binaries. Nova$^+$ shows overall the best performance for all three downstream tasks on five benchmarks, demonstrating the contributions of the new pre-training tasks.
Abstract（参考訳）: コードで事前トレーニングされた生成型大言語モデル(llm)は、コード生成、プログラムの修復、文書解析において素晴らしい効果を示している。しかし、既存のジェネレーティブLLMはソースコードに焦点を当てており、バイナリに特化していない。 llmがバイナリコードのモデル化と学習には、hex-decimal値、複雑なグローバル依存性、コンパイラ最適化レベルという3つの大きな課題がある。バイナリドメインにLLMの利点をもたらすため、バイナリコーパス上で事前学習されたLLMであるNovaとNova$+$を開発した。 Novaは標準言語モデリングタスクで事前トレーニングされており、バイナリコード類似性検出(BCSD)、バイナリコード変換(BCT)、バイナリコードリカバリ(BCR)、GPT-3.5など、既存の3つのダウンストリームタスクの5つのベンチマークで大幅に改善されている。我々はNovaを2つの新しい事前学習タスク、すなわち最適化生成と最適化レベル予測を使ってさらに強化するためにNova$^+$を構築します。 nova$^+$は、5つのベンチマークで3つのダウンストリームタスクの全体的なパフォーマンスを示し、新しい事前トレーニングタスクの貢献を示している。

関連論文リスト

An Empirical Study on the Effectiveness of Large Language Models for Binary Code Understanding [50.17907898478795]
本研究では,現実のリバースエンジニアリングシナリオにおけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2025-04-30T17:02:06Z)
ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning [33.53059396922164]
アセンブリコード分析と理解は、リバースエンジニアリングのようなアプリケーションにおいて重要な役割を果たす。従来のマスク付き言語モデリングアプローチは、自然言語の相互作用に明示的に焦点を合わせていない。本稿では、エンドツーエンドな構造意味的命令チューニングフレームワークであるアセンブリ・チューニングについて述べる。
論文参考訳（メタデータ） (2025-03-14T17:36:08Z)
A Comprehensive Survey of AI-Driven Advancements and Techniques in Automated Program Repair and Code Generation [0.0]
最近27の論文がレビューされ、2つのグループに分けられた。最初のグループは、意味的エラーの特定を含む、バグの検出と修復のための新しいメソッドで構成されている。 2つ目のグループはコード生成に精通しており、プログラミングとタスク固有のモデルのために微調整された汎用LLMの概要を提供している。また、識別子認識トレーニング、命令レベルでの微調整、セマンティックコード構造の導入など、コード生成を改善する方法も提示されている。
論文参考訳（メタデータ） (2024-11-12T06:47:54Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
zsLLMCode: An Effective Approach for Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
本稿では,大言語モデル(LLM)と文埋め込みモデルを用いて,新たなゼロショット手法であるzsLLMCodeを提案する。その結果,最先端の教師なしアプローチに対する提案手法の有効性と優位性を実証した。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2024-04-15T14:44:08Z)
CLAP: Learning Transferable Binary Code Representations with Natural Language Supervision [22.42846252594693]
本稿では,言語指導を利用してバイナリコードのより良い表現を学習するCLAP(Contrastive Language-Assembly Pre-training)を提案する。中心となるアプローチは、バイナリコードとセマンティックスの説明を効果的に整合させることで、優れたトランスファー学習能力を向上する。私たちは1億9500万のバイナリコードと説明を生成し、CLAPのプロトタイプをトレーニングしました。
論文参考訳（メタデータ） (2024-02-26T13:49:52Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models [37.8941430624661]
本研究では,バイナリコード理解のための大規模言語モデル (LLM) の可能性について検討する。 BinSumは557K以上のバイナリ関数の包括的なベンチマークとデータセットである。また,従来の完全マッチング手法を超越した意味的類似度尺度を提案する。
論文参考訳（メタデータ） (2023-12-15T08:32:28Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。