論文の概要: CodableLLM: Automating Decompiled and Source Code Mapping for LLM Dataset Generation
- arxiv url: http://arxiv.org/abs/2507.22066v1
- Date: Wed, 02 Jul 2025 15:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.913357
- Title: CodableLLM: Automating Decompiled and Source Code Mapping for LLM Dataset Generation
- Title(参考訳): CodableLLM: LLMデータセット生成のためのデコンパイルおよびソースコードマッピングの自動化
- Authors: Dylan Manuel, Paul Rad,
- Abstract要約: CodableLLMは、デコンパイルされた関数を対応するソース関数にマッピングすることで、データセットの作成とキュレーションを自動化するように設計されたPythonフレームワークである。
CodableLLMは複数のプログラミング言語をサポートし、既存のデコンパイラと統合してデータセット生成を合理化している。
- 参考スコア(独自算出の注目度): 2.2252684361733293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generation of large, high-quality datasets for code understanding and generation remains a significant challenge, particularly when aligning decompiled binaries with their original source code. To address this, we present CodableLLM, a Python framework designed to automate the creation and curation of datasets by mapping decompiled functions to their corresponding source functions. This process enhances the alignment between decompiled and source code representations, facilitating the development of large language models (LLMs) capable of understanding and generating code across multiple abstraction levels. CodableLLM supports multiple programming languages and integrates with existing decompilers and parsers to streamline dataset generation. This paper presents the design and implementation of CodableLLM, evaluates its performance in dataset creation, and compares it to existing tools in the field. The results demonstrate that CodableLLM offers a robust and efficient solution for generating datasets tailored for code-focused LLMS.
- Abstract(参考訳): コード理解と生成のための大規模で高品質なデータセットの生成は、特に逆コンパイルされたバイナリと元のソースコードとの整合性において、依然として大きな課題である。
そこで本稿では,デコンパイルされた関数を対応するソース関数にマッピングすることで,データセットの生成とキュレーションを自動化するように設計されたPythonフレームワークであるCodableLLMを紹介する。
このプロセスは、デコンパイルされたコード表現とソースコード表現の整合性を高め、複数の抽象化レベルにわたるコードの理解と生成が可能な大規模言語モデル(LLM)の開発を容易にする。
CodableLLMは複数のプログラミング言語をサポートし、既存のデコンパイラやパーサと統合してデータセット生成を効率化する。
本稿では、CodableLLMの設計と実装について述べ、データセット作成における性能を評価し、現場の既存のツールと比較する。
その結果、コード中心のLLMSに適したデータセットを生成するために、CodableLLMは堅牢で効率的なソリューションを提供することがわかった。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - ViC: Virtual Compiler Is All You Need For Assembly Code Search [9.674880905252628]
本稿では,汎用コンパイラをエミュレートするLarge Language Model(LLM)のトレーニングについて検討する。
さらに、任意の言語のソースコードをアセンブリコードにコンパイルできる仮想コンパイラ(ViC)としてCodeLlamaを事前訓練します。
組立コード検索性能は大幅に向上し,ベースラインを26%上回った。
論文 参考訳(メタデータ) (2024-08-10T17:23:02Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Exploring Large Language Models for Code Explanation [3.2570216147409514]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げている。
本研究では,様々なLLMを用いて,コードスニペットの自然言語要約を生成するタスクについて検討する。
論文 参考訳(メタデータ) (2023-10-25T14:38:40Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。