Fugu-MT 論文翻訳(概要): MCTS-Refined CoT: High-Quality Fine-Tuning Data for LLM-Based Repository Issue Resolution

論文の概要: MCTS-Refined CoT: High-Quality Fine-Tuning Data for LLM-Based Repository Issue Resolution

arxiv url: http://arxiv.org/abs/2506.12728v1
Date: Sun, 15 Jun 2025 05:42:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:46.783108
Title: MCTS-Refined CoT: High-Quality Fine-Tuning Data for LLM-Based Repository Issue Resolution
Title（参考訳）: MCTS-Refined CoT:LLMリポジトリ問題解決のための高品質微調整データ
Authors: Yibo Wang, Zhihao Peng, Ying Wang, Zhao Wei, Hai Yu, Zhiliang Zhu,
Abstract要約: 本稿では,モンテカルロ木探索(MCTS)に基づく中間推論ステップの動的検証と最適化を行うMCTS-INEを提案する。 SWE-bench LiteとSWE-bench Verifiedの実験は、我々のCoTデータセットで微調整されたLLMがベースラインよりも大幅に改善されたことを示す。
参考スコア（独自算出の注目度）: 18.314436803012434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLMs demonstrate strong performance in auto-mated software engineering, particularly for code generation and issue resolution. While proprietary models like GPT-4o achieve high benchmarks scores on SWE-bench, their API dependence, cost, and privacy concerns limit adoption. Open-source alternatives offer transparency but underperform in complex tasks, especially sub-100B parameter models. Although quality Chain-of-Thought (CoT) data can enhance reasoning, current methods face two critical flaws: (1) weak rejection sampling reduces data quality, and (2) inadequate step validation causes error accumulation. These limitations lead to flawed reasoning chains that impair LLMs'ability to learn reliable issue resolution. The paper proposes MCTS-REFINE, an enhanced Monte Carlo Tree Search (MCTS)-based algorithm that dynamically validates and optimizes intermediate reasoning steps through a rigorous rejection sampling strategy, generating high-quality CoT data to improve LLM performance in issue resolution tasks. Key innovations include: (1) augmenting MCTS with a reflection mechanism that corrects errors via rejection sampling and refinement, (2) decomposing issue resolution into three subtasks-File Localization, Fault Localization, and Patch Generation-each with clear ground-truth criteria, and (3) enforcing a strict sampling protocol where intermediate outputs must exactly match verified developer patches, ensuring correctness across reasoning paths. Experiments on SWE-bench Lite and SWE-bench Verified demonstrate that LLMs fine-tuned with our CoT dataset achieve substantial improvements over baselines.Notably, Qwen2.5-72B- Instruct achieves 28.3%(Lite) and 35.0%(Verified) resolution rates, surpassing SOTA baseline SWE-Fixer-Qwen-72B with the same parameter scale, which only reached 24.7%(Lite) and 32.8%(Verified).
Abstract（参考訳）: LLMは、特にコード生成とイシュー解決において、自動修正されたソフトウェア工学において強力な性能を示す。 GPT-4oのようなプロプライエタリなモデルはSWE-benchで高いベンチマークを達成しているが、API依存、コスト、プライバシに関する懸念は採用を制限している。オープンソースの代替手段は透明性を提供するが、複雑なタスク、特に100B未満のパラメータモデルでは不十分である。 CoT(Quality Chain-of-Thought)データは推論を向上させることができるが、現在の手法では、(1)弱い拒絶サンプリングがデータ品質を低下させ、(2)不適切なステップ検証がエラーの蓄積を引き起こすという2つの重大な欠陥に直面している。これらの制限は、LLMが信頼性の高い問題解決を学べないような、欠点のある推論チェーンに繋がる。本稿では,モンテカルロ木探索(MCTS)に基づく改良型アルゴリズムMCTS-REFINEを提案する。 1)リフレクションサンプリングとリファインメントによるエラー修正機構によるMCTSの強化、(2)イシュー解決を3つのサブタスクに分解する、(File Localization)、(Fault Localization)、(Fault Localization)、(Patch Generation-each)、(Patch Generation-each)、(Patch Generation-each)、(Platform-Truth)、(Platform-Truth)、(Platform-Truth)、(Platform-Truth)、(Platform-Truth)、(Patch Generation-each)、(Platform-Truth)、(Platform-Truth)、(Platform-Truth-Truth-Truth)の3つ。 SWE-bench LiteとSWE-bench Verifiedの実験は、我々のCoTデータセットで微調整されたLLMがベースラインよりも大幅に改善したことを示しているが、Qwen2.5-72B-インストラクションは28.3%(Lite)と35.0%(Verified)の解像度で、同じパラメータスケールのSOTAベースラインSWE-Fixer-Qwen-72Bを上回り、24.7%(Lite)と32.8%(Verified)にしか達していない。

関連論文リスト

Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction [4.304383298057423]
本稿では, 誤り前検出, 連鎖型サブタスク反復補正, 推論プロセス検証の3段階からなる信頼性補正フレームワーク(RLLM-CF)を提案する。 AISHELL-1, AISHELL-2, Librispeechの実験により, このフレームワークによって強化されたGPT-4oモデルは, CER/WERの相対減少率21%, 11%, 9%, 11.4%を達成した。
論文参考訳（メタデータ） (2025-05-30T08:40:49Z)
Enhancing Smart Contract Vulnerability Detection in DApps Leveraging Fine-Tuned LLM [0.7018579932647147]
分散アプリケーション(DApps)は、スマートコントラクトの脆弱性のため、重大なセキュリティリスクに直面します。本稿では,Large Language Models (LLM) を利用したスマートコントラクト脆弱性検出手法を提案する。
論文参考訳（メタデータ） (2025-04-07T12:32:14Z)
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。 1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文参考訳（メタデータ） (2025-02-06T18:59:11Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-11-27T18:04:05Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。