Fugu-MT 論文翻訳(概要): Chain of Draft for Software Engineering: Challenges in Applying Concise Reasoning to Code Tasks

論文の概要: Chain of Draft for Software Engineering: Challenges in Applying Concise Reasoning to Code Tasks

arxiv url: http://arxiv.org/abs/2506.10987v1
Date: Wed, 12 Mar 2025 07:44:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-22 23:32:14.437846
Title: Chain of Draft for Software Engineering: Challenges in Applying Concise Reasoning to Code Tasks
Title（参考訳）: ソフトウェアエンジニアリングのためのドラフトのチェーン: 簡潔な推論をコードタスクに適用する上での課題
Authors: Shaoyi Yang,
Abstract要約: 本研究は,CoD(Chain of Draft)法をソフトウェア工学に拡張する。すべてのCoD変種は、Chain of Thought (CoT)よりもかなり少ないトークンを使用した。 CoDの変種は、CoTのコード品質の90%以上を、正確性、互換性、保守性を含む主要なメトリクスで維持する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have become vital tools for software development, but they often require verbose intermediate reasoning for complex code tasks, leading to high latency and costs. This research extends the Chain of Draft (CoD) method to software engineering, designing and evaluating multiple CoD variants tailored for code tasks. Through comprehensive experiments on all 300 samples from the SWE-bench benchmark, we found that all CoD variants used significantly fewer tokens than Chain of Thought (CoT), with Baseline CoD being most efficient at 55.4% of CoT's tokens. While this represents substantial efficiency gains - translating to approximately 45% reduction in processing time and API costs - it differs from the extreme 7.6% reported in the original CoD paper for mathematical reasoning. This difference stems from the inherent complexity and context-dependency of software tasks, which require more detailed reasoning to maintain solution quality. Our multi-dimensional quality assessment revealed that CoD variants maintain over 90% of CoT's code quality across key metrics including correctness, compatibility, and maintainability, making them practical alternatives for real-world development scenarios where efficiency matters. This research demonstrates how domain-specific characteristics influence prompting strategy effectiveness and provides a framework for balancing efficiency with solution quality in software engineering applications. Our findings offer practical guidance for optimizing LLM-based development workflows through appropriate prompting strategy selection based on project requirements.
Abstract（参考訳）: 大規模言語モデル(LLM)はソフトウェア開発において重要なツールとなっているが、複雑なコードタスクに対して冗長な中間的推論を必要とすることが多く、高いレイテンシとコストが発生する。この研究は、コードタスクに適した複数のCoD変種を設計し、評価するソフトウェア工学に、Chain of Draft (CoD) メソッドを拡張した。 SWE-benchベンチマークから得られた300のサンプルの総合的な実験により、すべてのCoD変種が、CoTのトークンの55.4%で最も効率的であることが判明した。これは、処理時間とAPIコストの約45%削減という、かなりの効率向上を示しているが、数学的推論のためのオリジナルのCoD論文で報告された極端な7.6%とは異なる。この違いは、ソリューションの品質を維持するためにより詳細な推論を必要とする、ソフトウェアタスクの本質的な複雑さとコンテキスト依存に起因しています。当社の多次元品質評価では、CoTのコード品質の90%以上を、正確性、互換性、保守性などを含む主要な指標で維持し、効率が重要な実世界の開発シナリオに実用的な代替手段として提供しています。本研究は、ドメイン固有の特徴が戦略の有効性にどのように影響するかを実証し、ソフトウェア工学アプリケーションにおけるソリューション品質と効率のバランスをとるためのフレームワークを提供する。本研究は,プロジェクト要件に基づいた戦略選択を適切に進めることで,LCMベースの開発ワークフローを最適化するための実践的ガイダンスを提供する。

関連論文リスト

Analyzing Prominent LLMs: An Empirical Study of Performance and Complexity in Solving LeetCode Problems [0.0]
ChatGPT、Copilot、Gemini、DeepSeekといった大規模言語モデル(LLM)は、重要なタスクを自動化することで、ソフトウェアエンジニアリングを変革しています。この研究は、容易、中、難易度にまたがる100と50のLeetCode問題に対して、これらの4つの著名なLLMをベンチマークする。我々は,実行時間,メモリ使用量,アルゴリズムの複雑さに基づいて各モデルを評価する。
論文参考訳（メタデータ） (2025-08-05T21:50:52Z)
CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation [19.071855537400463]
大規模言語モデル(LLM)はソフトウェア工学において重要な役割を果たし、コード生成やメンテナンスといったタスクに優れています。 CoCo-Benchは、コード理解、コード生成、コード修正、コードレビューの4つの重要な側面にわたるLCMを評価するように設計されている。
論文参考訳（メタデータ） (2025-04-29T11:57:23Z)
Optimizing Token Consumption in LLMs: A Nano Surge Approach for Code Reasoning Efficiency [5.044393644778693]
Chain of Thought (CoT)推論は、コードの自動修復に欠かせないアプローチとなっている。 CoTはトークン消費を大幅に増加させ、推論効率を低下させ、計算コストを上昇させる。本稿では,コンテキスト認識,責任調整,コスト感の3つの最適化手法を提案する。
論文参考訳（メタデータ） (2025-04-22T15:51:00Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
LATTE: Learning to Think with Vision Specialists [103.5952731807559]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文参考訳（メタデータ） (2024-12-07T00:42:04Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文参考訳（メタデータ） (2024-05-18T22:10:15Z)
NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts [31.783388267874738]
NaturalCodeBench (NCB) は、実際のコーディングタスクにおける複雑さと様々なシナリオを反映した、挑戦的なコードベンチマークである。 NCBは、PythonとJavaの402の高品質な問題で構成されており、オンラインコーディングサービスからの自然なユーザクエリから慎重に選択されている。 39 LLMの系統的実験により,NCBにおけるHumanEvalスコアが近いモデル間の性能ギャップが依然として大きいことが判明した。
論文参考訳（メタデータ） (2024-05-07T17:52:51Z)
SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。 FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文参考訳（メタデータ） (2024-03-23T14:04:48Z)
CodePori: Large-Scale System for Autonomous Software Development Using Multi-Agent Technology [4.2990995991059275]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学の分野を変えました。我々は,大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化するように設計された,新しいシステムであるCodePoriを紹介する。結果: CodePoriは、典型的なソフトウェア開発プロセスに合わせて、大規模プロジェクトの実行コードを生成することができる。
論文参考訳（メタデータ） (2024-02-02T13:42:50Z)
Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文参考訳（メタデータ） (2023-08-22T19:09:56Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。