論文の概要: \texttt{ReMind}: Understanding Deductive Code Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2511.00488v1
- Date: Sat, 01 Nov 2025 10:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.803224
- Title: \texttt{ReMind}: Understanding Deductive Code Reasoning in LLMs
- Title(参考訳): \texttt{ReMind}: LLMにおけるデダクティブコード推論を理解する
- Authors: Jun Gao, Yun Peng, Xiaoxue Ren,
- Abstract要約: 大規模言語モデル(LLM)は、コード関連のタスクにおいて顕著な進歩を遂げた。
彼らはまだ、プログラム実行プロセスについて推論する能力である暗黙のコード推論に苦戦しています。
textttReMindは,textttMutator, textttExecutor, textttInspectorで構成されるマルチエージェントフレームワークである。
- 参考スコア(独自算出の注目度): 6.918479033945452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable progress in code-related tasks. Despite their advancement, empirical evidence reveals that they still struggle with \emph{deductive code reasoning}, the ability to reason about the program execution process. While prior studies have recognized this limitation, the underlying causes remain largely underexplored. In this paper, we begin by presenting a comprehensive empirical study that reveals three key challenges undermining deductive code reasoning: (1) an intrinsic gap between generation and reasoning abilities, (2) a consistent bias towards code sources, and (3) weak zero-shot generalization on complex benchmarks. In light of these challenges, we propose \texttt{ReMind}, a multi-agent framework composed of \texttt{Mutator}, \texttt{Executor}, and \texttt{Inspector}. The \texttt{Mutator} generates code variants to mitigate bias towards code sources, the \texttt{Executor} traces variable states step-by-step to expose inconsistency, and the \texttt{Inspector} identifies problematic reasoning steps and provides control-flow refinement to bridge the intrinsic reasoning gap. Through their coordinated collaboration, \texttt{ReMind} systematically identifies and refines reasoning flaws, achieving outstanding performance and enabling robust zero-shot generalization. Extensive experiments on two benchmarks with five LLMs demonstrate the superior advantages of \texttt{ReMind} compared to baseline approaches in deductive code reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード関連のタスクにおいて顕著な進歩を遂げた。
その進歩にもかかわらず、実証的な証拠は、プログラムの実行プロセスについて推論する能力である 'emph{deductive code reasoning} とまだ苦労していることを示している。
以前の研究では、この制限は認識されていたが、根本原因は未解明のままである。
本稿では,(1)生成能力と推論能力との本質的なギャップ,(2)コードソースに対する一貫したバイアス,(3)複雑なベンチマークにおけるゼロショット一般化の弱さ,の3つの重要な課題を明らかにする。
これらの課題を考慮し, \texttt{ReMind}, \texttt{Mutator}, \texttt{Executor}, \texttt{Inspector}からなるマルチエージェントフレームワークを提案する。
\textt{Mutator} は、コードソースに対するバイアスを軽減するためのコード変種を生成し、 \textt{Executor} は、不変状態を段階的にトレースして不整合を露呈し、 \textt{Inspector} は問題のある推論ステップを特定し、本質的な推論ギャップをブリッジするための制御フローの洗練を提供する。
コーディネートされたコラボレーションを通じて、 \texttt{ReMind} は系統的に推論の欠陥を特定し、洗練し、優れた性能を達成し、堅牢なゼロショットの一般化を可能にする。
5つの LLM を持つ2つのベンチマークの大規模な実験は、導出的コード推論におけるベースラインアプローチと比較して、 \texttt{ReMind} の優れた優位性を示している。
関連論文リスト
- Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Chain-of-Thought Reasoning Without Prompting [40.92854235219315]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練された言語モデルから引き出すことができる。
復号経路におけるCoTの存在は、モデルの復号解に対する高い信頼と相関する。
論文 参考訳(メタデータ) (2024-02-15T18:55:41Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。