論文の概要: Feedback Loops and Code Perturbations in LLM-based Software Engineering: A Case Study on a C-to-Rust Translation System
- arxiv url: http://arxiv.org/abs/2512.02567v1
- Date: Tue, 02 Dec 2025 09:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.809442
- Title: Feedback Loops and Code Perturbations in LLM-based Software Engineering: A Case Study on a C-to-Rust Translation System
- Title(参考訳): LLMソフトウェア工学におけるフィードバックループとコード摂動--C-to-Rust翻訳システムの事例-
- Authors: Martin Weiss, Jesko Hecking-Harbusch, Jochen Quante, Matthias Woehrle,
- Abstract要約: 自動C-to-Rust翻訳システムにおける3変数の効果について検討する。
その結果,LLM選択のフィードバックループがなければ,翻訳成功に大きな影響を及ぼすことがわかった。
また、コード摂動によってもたらされる多様性によってシステム性能が向上する可能性があることも確認した。
- 参考スコア(独自算出の注目度): 1.2566563622834341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of strong generative AI has a considerable impact on various software engineering tasks such as code repair, test generation, or language translation. While tools like GitHub Copilot are already in widespread use in interactive settings, automated approaches require a higher level of reliability before being usable in industrial practice. In this paper, we focus on three aspects that directly influence the quality of the results: a) the effect of automated feedback loops, b) the choice of Large Language Model (LLM), and c) the influence of behavior-preserving code changes. We study the effect of these three variables on an automated C-to-Rust translation system. Code translation from C to Rust is an attractive use case in industry due to Rust's safety guarantees. The translation system is based on a generate-and-check pattern, in which Rust code generated by the LLM is automatically checked for compilability and behavioral equivalence with the original C code. For negative checking results, the LLM is re-prompted in a feedback loop to repair its output. These checks also allow us to evaluate and compare the respective success rates of the translation system when varying the three variables. Our results show that without feedback loops LLM selection has a large effect on translation success. However, when the translation system uses feedback loops the differences across models diminish. We observe this for the average performance of the system as well as its robustness under code perturbations. Finally, we also identify that diversity provided by code perturbations can even result in improved system performance.
- Abstract(参考訳): 強力な生成AIの出現は、コード修復、テスト生成、言語翻訳など、さまざまなソフトウェアエンジニアリングタスクに大きな影響を与えている。
GitHub Copilotのようなツールは、すでにインタラクティブな設定で広く使われているが、自動化されたアプローチでは、工業的プラクティスで使えるようになる前に、より高いレベルの信頼性を必要とする。
本稿では,結果の質に直接影響を与える3つの側面に焦点を当てる。
a) 自動フィードバックループの効果
b)Large Language Model(LLM)の選択及び
c) 行動保存コードの変更の影響
自動C-to-Rust翻訳システムにおけるこれらの3変数の効果について検討する。
CからRustへのコード変換は、Rustの安全性を保証するため、業界で魅力的なユースケースである。
翻訳システムは、ジェネレーション・アンド・チェックパターンに基づいており、LLMによって生成されたRustコードが、元のCコードとコンパイル可能性および振る舞いの等価性のために自動的にチェックされる。
負のチェック結果に対して、LLMはフィードバックループに再ジャンプして出力を修復する。
これらのチェックは,3変数の異なる翻訳システムの成功率を評価・比較することを可能にする。
その結果,LLM選択のフィードバックループがなければ,翻訳成功に大きな影響を及ぼすことがわかった。
しかし、翻訳システムがフィードバックループを使用すると、モデル間の差は減少する。
コード摂動下でのシステムの平均性能とロバスト性を観察する。
最後に、コード摂動によってもたらされる多様性によってシステム性能が向上する可能性があることも確認します。
関連論文リスト
- Protocode: Prototype-Driven Interpretability for Code Generation in LLMs [5.8296917468117835]
大規模言語モデル(LLM)は、テキスト要約、質問応答、音声からテキストへの翻訳など、様々なタスクに広く採用されている。
我々の研究は、モデルの性能を改善し、生成されたコードの解釈可能性を高めることができるインコンテキスト学習(ICL)のデモを自動的にサンプリングすることに焦点を当てている。
論文 参考訳(メタデータ) (2025-09-27T00:32:45Z) - Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - SafeTrans: LLM-assisted Transpilation from C to Rust [5.6274106543826585]
Rustは、Cの"システム"プログラミング言語としてのメモリセーフな代替として、強力な競争相手である。
本稿では,大規模な言語モデル(LLM)がRustへのCコードの自動コンパイルを実現する可能性を評価する。
SafeTrans は LLM を使って,C コードを Rust にトランスパイルするフレームワークである。
論文 参考訳(メタデータ) (2025-05-15T21:05:33Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - Syzygy: Dual Code-Test C to (safe) Rust Translation using LLMs and Dynamic Analysis [8.361424157571468]
Syzygyは、C言語を安全なRustに変換する自動化アプローチである。
これは、Rustのコード翻訳を安全にする上で、これまでで最大の自動化およびテスト検証済みのCである。
論文 参考訳(メタデータ) (2024-12-18T18:55:46Z) - CYCLE: Learning to Self-Refine the Code Generation [19.71833229434497]
本稿では,CYCLEフレームワークを提案する。
350M, 1B, 2B, 3B のベンチマークで, パラメータ数が異なる CYCLE の4つの変種を実装した。
その結果、CYCLEは一度のコード生成の品質を維持し、時には改善すると同時に、コードLMの自己抑制能力を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2024-03-27T16:45:02Z) - Feedback Loops With Language Models Drive In-Context Reward Hacking [78.9830398771605]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。
ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。
AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文 参考訳(メタデータ) (2024-02-09T18:59:29Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。