論文の概要: Dual-Process Scaffold Reasoning for Enhancing LLM Code Debugging
- arxiv url: http://arxiv.org/abs/2511.08052v1
- Date: Wed, 12 Nov 2025 01:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.614213
- Title: Dual-Process Scaffold Reasoning for Enhancing LLM Code Debugging
- Title(参考訳): LLMコードのデバッギング向上のためのデュアルプロスシャッフル推論
- Authors: Po-Chung Hsieh, Chin-Po Chen, Jeng-Lin Li, Ming-Ching Chang,
- Abstract要約: コードデバッグのための心理支援型Scaffold Reasoningフレームワークを提案する。
当社のフレームワークは,DebugBench上で88.91%のパスレートと平均推定時間5.36秒を実現している。
また,提案するScaffold Reasoningフレームワークと人間の認知過程との整合性についても検討した。
- 参考スコア(独自算出の注目度): 18.70811439409094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent LLMs have demonstrated sophisticated problem-solving capabilities on various benchmarks through advanced reasoning algorithms. However, the key research question of identifying reasoning steps that balance complexity and computational efficiency remains unsolved. Recent research has increasingly drawn upon psychological theories to explore strategies for optimizing cognitive pathways. The LLM's final outputs and intermediate steps are regarded as System 1 and System 2, respectively. However, an in-depth exploration of the System 2 reasoning is still lacking. Therefore, we propose a novel psychologically backed Scaffold Reasoning framework for code debugging, which encompasses the Scaffold Stream, Analytic Stream, and Integration Stream. The construction of reference code within the Scaffold Stream is integrated with the buggy code analysis results produced by the Analytic Stream through the Integration Stream. Our framework achieves an 88.91% pass rate and an average inference time of 5.36 seconds per-problem on DebugBench, outperforming other reasoning approaches across various LLMs in both reasoning accuracy and efficiency. Further analyses elucidate the advantages and limitations of various cognitive pathways across varying problem difficulties and bug types. Our findings also corroborate the alignment of the proposed Scaffold Reasoning framework with human cognitive processes.
- Abstract(参考訳): 近年のLSMは、高度な推論アルゴリズムを用いて、様々なベンチマークで高度な問題解決能力を実証している。
しかし、複雑性と計算効率のバランスをとる推論ステップを特定するための重要な研究課題は未解決のままである。
近年、認知経路を最適化するための戦略を探求する心理学的理論が研究されている。
LLMの最終出力と中間ステップはそれぞれシステム1とシステム2と見なされる。
しかし、システム2の推論の詳細な調査はまだ不十分である。
そこで本研究では,Scaffold Stream,Analytic Stream,Integration Streamを含む,コードデバッグのための心理的支援型Scaffold Reasoningフレームワークを提案する。
Scaffold Stream内の参照コードの構築は、Integration Streamを通じてAnalytic Streamが生成したバグコード解析結果と統合されます。
このフレームワークは,DebugBench上で88.91%のパスレートと平均推定時間5.36秒を実現し,推算精度と効率性の両方において,他のLLMの推論手法よりも優れていた。
さらなる分析により、様々な問題障害やバグタイプにまたがる様々な認知経路の利点と限界が解明される。
また,提案するScaffold Reasoningフレームワークと人間の認知過程との整合性についても検討した。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Cognitive Decision Routing in Large Language Models: When to Think Fast, When to Think Slow [0.0]
大規模言語モデル(LLM)は、迅速で直感的な応答にいつ依存するか決定する上で、より遅く、より意図的な推論を行うという根本的な課題に直面します。
ダニエル・カーネマン(Daniel Kahneman)の二重プロセス理論と人間の認知バイアスに関する洞察に触発され、我々は新しい認知決定ルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-17T01:07:58Z) - Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks [10.074110713679739]
モバイルネットワークにおけるルート原因分析(RCA)は、解釈可能性、ドメインの専門知識、因果推論を必要とするため、依然として困難な課題である。
RCAにLarge Language Models(LLM)を利用する軽量フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-29T16:21:42Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - From System 1 to System 2: A Survey of Reasoning Large Language Models [72.87412996793957]
基礎的な大規模言語モデルは、迅速な意思決定では優れているが、複雑な推論には深みがない。
OpenAIのo1/o3とDeepSeekのR1は、数学やコーディングといった分野のエキスパートレベルのパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-02-24T18:50:52Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop
Visual Reasoning [16.495754104540605]
大規模言語モデル(LLM)は、視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成することができる。
ワンストップ推論 (fast) とツリー・オブ・シント (slow) を統合した階層型計画探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-18T16:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。