論文の概要: Towards a Neural Debugger for Python
- arxiv url: http://arxiv.org/abs/2603.09951v1
- Date: Tue, 10 Mar 2026 17:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.513219
- Title: Towards a Neural Debugger for Python
- Title(参考訳): Pythonのニューラルデバッガを目指して
- Authors: Maximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel Synnaeve,
- Abstract要約: Python実行上の大きな言語モデルのトレーニングは、それらをコード実行の基盤とします。
これにより、全Pythonプログラムの行ごとの実行予測が可能になる。
開発者は、プログラムをステップバイステップで実行することは滅多にない。代わりに、デバッガを使用して、特定のブレークポイントでの実行を停止し、プログラム変数を検査または修正しながら、関連する部分をステップスルーする。
既存のニューラルインタプリタアプローチには、このようなインタラクティブな制御が欠けている。
- 参考スコア(独自算出の注目度): 25.996925295693444
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training large language models (LLMs) on Python execution traces grounds them in code execution and enables the line-by-line execution prediction of whole Python programs, effectively turning them into neural interpreters (FAIR CodeGen Team et al., 2025). However, developers rarely execute programs step by step; instead, they use debuggers to stop execution at certain breakpoints and step through relevant portions only while inspecting or modifying program variables. Existing neural interpreter approaches lack such interactive control. To address this limitation, we introduce neural debuggers: language models that emulate traditional debuggers, supporting operations such as stepping into, over, or out of functions, as well as setting breakpoints at specific source lines. We show that neural debuggers -- obtained via fine-tuning large LLMs or pre-training smaller models from scratch -- can reliably model both forward execution (predicting future states and outputs) and inverse execution (inferring prior states or inputs) conditioned on debugger actions. Evaluated on CruxEval, our models achieve strong performance on both output and input prediction tasks, demonstrating robust conditional execution modeling. Our work takes first steps towards future agentic coding systems in which neural debuggers serve as a world model for simulated debugging environments, providing execution feedback or enabling agents to interact with real debugging tools. This capability lays the foundation for more powerful code generation, program understanding, and automated debugging.
- Abstract(参考訳): Python実行上の大きな言語モデル(LLM)のトレーニングは、それらをコード実行の土台として、Pythonプログラム全体の行ごとの実行予測を可能にし、効果的にニューラルインタプリタ(FAIR CodeGen Team et al , 2025)に変換する。
しかし、開発者はプログラムをステップバイステップで実行することは滅多にない。代わりにデバッガを使用して特定のブレークポイントでの実行を停止し、プログラム変数を検査したり修正したりするだけで、関連する部分をステップスルーする。
既存のニューラルインタプリタアプローチには、このようなインタラクティブな制御が欠けている。
この制限に対処するため、従来のデバッガをエミュレートする言語モデル、関数のステップイン、オーバー、アウトといった操作のサポート、特定のソースラインでのブレークポイントの設定など、ニューラルネットワークを導入しています。
ニューラルデバッガ -- 大規模なLLMを微調整したり、スクラッチから小さなモデルを事前訓練することで -- は、デバッガアクションで条件付けられたフォワード実行(将来の状態と出力の予測)と逆実行(事前状態や入力の推論)の両方を確実にモデル化できることを示す。
CruxEvalをモデルとして評価し,出力および入力予測タスクにおいて高い性能を達成し,ロバストな条件付き実行モデリングを実証した。
我々の研究は、ニューラルデバッガがデバッグ環境をシミュレートする世界モデルとして機能し、実行フィードバックを提供したり、エージェントが実際のデバッグツールと対話できるようにする未来のエージェントコーディングシステムへの第一歩を踏み出した。
この機能は、より強力なコード生成、プログラム理解、自動デバッグの基礎となる。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - MIO: Multiverse Debugging in the Face of Input/Output -- Extended Version with Additional Appendices [0.0]
入力/出力操作の幅広い範囲に対応可能な,マルチバースデバッグのための新しい手法を提案する。
我々はWARDuino WebAssembly仮想マシンを活用したMIOと呼ばれるプロトタイプを開発し、その実現可能性と効率性を実証した。
論文 参考訳(メタデータ) (2025-09-08T16:15:18Z) - Revisit Self-Debugging with Self-Generated Tests for Code Generation [18.643472696246686]
自己生成テストによる自己改善は、有望なソリューションだが、その限界と現実的な可能性を十分に探求することができない。
プロセスにはポストエグゼクティブとインエグゼクティブ自己老化という2つのパラダイムを提案する。
実行後の自己老化は基本的な問題に苦しむが、自己生成テストによって生じるバイアスのため、競合する問題の改善の可能性を示す。
論文 参考訳(メタデータ) (2025-01-22T10:54:19Z) - NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。
NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文 参考訳(メタデータ) (2024-04-23T01:46:32Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。