論文の概要: LLMs as Idiomatic Decompilers: Recovering High-Level Code from x86-64 Assembly for Dart
- arxiv url: http://arxiv.org/abs/2604.02278v1
- Date: Thu, 02 Apr 2026 17:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.960688
- Title: LLMs as Idiomatic Decompilers: Recovering High-Level Code from x86-64 Assembly for Dart
- Title(参考訳): 慣用的なデコンパイラとしてのLLM: Dartのx86-64アセンブリから高レベルコードの復元
- Authors: Raafat Abualazm, Ayman Abo Elhassan,
- Abstract要約: 我々は、最小限の計算を用いて、意味のある識別子を持つ読みやすい慣用的なDartを生成することができることを示す。
結果から,Swiftトレーニングデータの追加は8Bでは有効だが4Bでは有効ではないことが示唆され,効果的な言語間転送のためのキャパシティしきい値が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translating machine code into human-readable high-level languages is an open research problem in reverse engineering. Despite recent advancements in LLM-based decompilation to C, modern languages like Dart and Swift are unexplored. In this paper, we study the use of small specialized LLMs as an idiomatic decompiler for such languages. Additionally, we investigate the augmentation of training data using synthetic same-language examples, and compare it against adding human-written examples using related-language (Swift -> Dart). We apply CODEBLEU to evaluate the decompiled code readability and compile@k to measure the syntax correctness. Our experimental results show that on a 73-function Dart test dataset (representing diverse complexity levels), our 4B specialized model achieves 71.3 CODEBLEU (95% CI 65.5-77.1), approximately comparable to a ~480B code model (73.1; 67.4-78.8). On a subset of 34 natural Dart functions, it reaches compile@k5 = 79.4% (Wilson 95% CI 63.2-89.7), vs. 64.7% (47.9-78.5) for the base model; the difference is suggestive but not statistically significant at 0.05. Our results indicate that adding Swift training data helps at 8B but not at 4B, suggesting a capacity threshold for effective cross-lingual transfer. Our experimental results show that small specialized models can generate readable, idiomatic Dart with meaningful identifiers while using minimal compute.
- Abstract(参考訳): 機械コードを人間の読みやすい高レベル言語に翻訳することは、リバースエンジニアリングにおけるオープンな研究課題である。
LLMベースのCへの逆コンパイルの最近の進歩にもかかわらず、DartやSwiftのようなモダンな言語は探索されていない。
本稿では,そのような言語に対する慣用的な逆コンパイラとして,小型の特殊LSMを用いた場合について検討する。
さらに,同言語を用いた学習データの強化について検討し,関連する言語(Swift -> Dart)を用いた人間記述例の追加との比較を行った。
我々はCODEBLEUを用いて、非コンパイルコードの可読性を評価し、compile@kを使って構文の正しさを計測する。
実験の結果、73関数のDartテストデータセット(さまざまな複雑性レベルを表す)では、私たちの4B特化モデルは71.3 CODEBLEU(95% CI 65.5-77.1)に達し、ほぼ480Bのコードモデル(73.1; 67.4-78.8)に匹敵することがわかった。
34の自然Dart関数のサブセットでは、comple@k5 = 79.4%(Wilson 95% CI 63.2-89.7)、ベースモデルの64.7%(47.9-78.5)に達する。
結果から,Swiftトレーニングデータの追加は8Bでは有効だが4Bでは有効ではないことが示唆され,効果的な言語間転送のためのキャパシティしきい値が示唆された。
実験結果から、最小限の計算を用いて、意味のある識別子を持つ可読で慣用的なDartを生成することができることがわかった。
関連論文リスト
- Algorithm-Based Pipeline for Reliable and Intent-Preserving Code Translation with LLMs [3.4257278503723576]
直接一発翻訳は、しばしばプログラム意図を保存するのに失敗し、制御フローのエラー、型ハンドリング、I/O動作を引き起こす。
本稿では,言語ニュートラルな中間仕様を導入し,これらの詳細をコード生成前にキャプチャするアルゴリズムベースのパイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-18T00:34:29Z) - From LLMs to Agents in Programming: The Impact of Providing an LLM with a Compiler [2.7400724993677703]
大規模言語モデルは、自然言語とプログラム生成とソフトウェア開発において顕著な能力を示してきた。
本稿では,このようなエージェントがソフトウェア開発ツール,例えばgccコンパイラへのアクセスから恩恵を受ける程度について検討する。
我々は,コンパイラとの連携により,言語モデルの役割を受動的生成器から,コンパイラからのフィードバックに基づいて実行可能なプログラムを反復的に開発可能なアクティブエージェントへ移行させる方法について評価する。
論文 参考訳(メタデータ) (2026-01-17T19:43:06Z) - A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - Vuyko Mistral: Adapting LLMs for Low-Resource Dialectal Translation [0.0]
本稿では,ウクライナのフツル方言に大規模な言語モデルを適用するための最初の取り組みを紹介する。
我々は、9852語対標準ウクライナ語の文対と7320語の単語マッピングの辞書の並列コーパスを作成しました。
論文 参考訳(メタデータ) (2025-06-09T10:30:35Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Output Format Biases in the Evaluation of Large Language Models for Code Translation [6.75681623173699]
出力フォーマットのバリエーションを理解し、対処することが重要です。
非コード要素は評価指標に干渉し、モデルの性能と比較のバイアスのある評価をもたらす。
混合形式出力からソースコードを効果的に抽出する,プロンプトエンジニアリングと正規表現の戦略的組み合わせを提案する。
論文 参考訳(メタデータ) (2024-03-25T21:41:31Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。