論文の概要: REMODEL-LLM: Transforming C code to Java using LLMs
- arxiv url: http://arxiv.org/abs/2512.11402v1
- Date: Fri, 12 Dec 2025 09:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.715921
- Title: REMODEL-LLM: Transforming C code to Java using LLMs
- Title(参考訳): REMODEL-LLM: LLMを使ってCコードをJavaに変換する
- Authors: Aryan Gupta, Y. Raghu Reddy,
- Abstract要約: 我々は、抽象構文木(AST)を意味的分解に利用し、高度に制約されたルールベースのプロンプト戦略を採用する、新しいハイブリッドパイプラインを使用する。
大部分のモデル(例えば llama3.1, gemma3, starcoder2)はテストの100%を失敗し、基本的で実行可能なJavaボイラープレートを生成できなかった。
小さな中間層(Tier 2、例:Mistral-nemoとMistral)は実行可能なコードを生成するが、危険なセマンティックな失敗と間違った翻訳に悩まされた。
- 参考スコア(独自算出の注目度): 4.189643331553923
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The automated translation of C code to Java code is a notoriously difficult task, fraught with challenges stemming from fundamental paradigm shifts (procedural vs. Object Oriented), memory models (manual pointers vs. Garbage Collection), and incompatible data types. This paper investigates the efficacy of 19 small, quantized LLMs (under 20 billion parameters) for the C to Java translation task. We use a novel, hybrid pipeline that leverages Abstract Syntax Trees (ASTs) for semantic decomposition and employs a highly constrained, rule based prompting strategy. The results are stark: a clear multi tiered performance divide emerged. The vast majority of models (Tier 3, e.g., llama3.1, gemma3, starcoder2) failed 100\% of the tests, proving incapable of generating even basic, runnable Java boilerplate. A small middle tier (Tier 2, e.g., mistral-nemo and mistral) produced runnable code but was plagued by dangerous semantic failures and wrong translations. Only three models (Tier 1: phi4, deepseek-coder-v2, codeqwen) proved viable, passing over 50\% of the test suite. Even these top models failed on the most complex C concepts, such as function pointers, sizeof, and enum logic, revealing a hard ceiling for the reasoning capabilities of current quantized models.
- Abstract(参考訳): C言語のJavaコードへの自動翻訳は、基本的なパラダイムシフト(Produral vs. Object Oriented)、メモリモデル(手動ポインタ vs. Garbage Collection)、互換性のないデータタイプなど、非常に難しい作業です。
本稿では, C から Java への変換タスクに対して, 19 個の小型量子化 LLM (200 億のパラメータの下で) の有効性について検討する。
我々は、抽象構文木(AST)を意味的分解に利用し、高度に制約されたルールベースのプロンプト戦略を採用する、新しいハイブリッドパイプラインを使用する。
結果は悲観的だ: 明確なマルチ階層のパフォーマンス格差が出現した。
大部分のモデル(Tier 3, e g , llama3.1, gemma3, starcoder2)はテストの100\%を失敗した。
小さな中間層(Tier 2, eg, Mistral-nemo, Mistral)は実行可能なコードを生成するが、危険なセマンティックな失敗と間違った翻訳に悩まされた。
3つのモデル(Tier 1: phi4, Deepseek-coder-v2, codeqwen)のみが実行可能であり、テストスイートの50%以上をパスした。
これらのトップモデルでさえ、関数ポインター、サイズ、エヌム論理といった最も複雑なC概念で失敗し、現在の量子化モデルの推論能力のハード天井が明らかとなった。
関連論文リスト
- On the Effect of Token Merging on Pre-trained Models for Code [11.029842116504726]
本研究では,同じ意味単位に属するサブトークンの隠蔽表現をマージする効果について検討する。
1つは表現を平均化することに基づく戦略であり、もう1つは学習に基づくアプローチを活用する戦略である。
これらの戦略は浮動小数点演算数を1%$から19%$に削減できることを示している。
論文 参考訳(メタデータ) (2025-07-19T00:48:20Z) - Simplicity by Obfuscation: Evaluating LLM-Driven Code Transformation with Semantic Elasticity [4.458584890504334]
コードの難読化は、リバースエンジニアリングと知的財産の盗難を防ぐことを目的としている。
近年の大規模言語モデルの発展は、様々な分野における実践的応用の道を開いた。
この研究は、LLMがPythonのソースコードを難読化する能力について実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-18T18:29:23Z) - Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - Unmasking the Genuine Type Inference Capabilities of LLMs for Java Code Snippets [8.294192850975767]
大規模言語モデル(LLM)は、オンラインコードスニペットの型推論に使用される。
評価に使用されるベンチマークであるStatType-SOは、2017年からGitHubで公開されている。
本稿では,Java コードスニペット上での LLM の真の型推論能力を包括的に評価する。
論文 参考訳(メタデータ) (2025-03-06T04:13:40Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - A Comprehensive Review of State-of-The-Art Methods for Java Code
Generation from Natural Language Text [0.0]
本稿では,Javaコード生成タスクにおけるディープラーニングモデルの進化と進展を概観する。
我々は,最も重要な手法に焦点を合わせ,そのメリットと限界,およびコミュニティが使用する目的的機能を示す。
論文 参考訳(メタデータ) (2023-06-10T07:27:51Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Evaluating few shot and Contrastive learning Methods for Code Clone
Detection [5.1623866691702744]
コードクローン検出(Code Clone Detection)は、盗作検出、コード検索、コード理解に使用されるソフトウェアエンジニアリングタスクである。
ディープラーニングベースのモデルは、CodeXGLUEベンチマークで$sim$95%のF1スコア(分類器の評価に用いられる指標)を達成した。
注釈付きデータが限られているこれらのモデルの一般化性を評価する以前の研究はない。
論文 参考訳(メタデータ) (2022-04-15T15:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。