Fugu-MT 論文翻訳(概要): More with Less: An Empirical Study of Turn-Control Strategies for Efficient Coding Agents

論文の概要: More with Less: An Empirical Study of Turn-Control Strategies for Efficient Coding Agents

arxiv url: http://arxiv.org/abs/2510.16786v1
Date: Sun, 19 Oct 2025 10:32:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 00:56:39.14557
Title: More with Less: An Empirical Study of Turn-Control Strategies for Efficient Coding Agents
Title（参考訳）: より少ないもの:効率的な符号化エージェントのためのターン・コントロル・ストラテジーの実証的研究
Authors: Pengfei Gao, Chao Peng,
Abstract要約: コーディングエージェントは、ソフトウェアエンジニアリングタスクを解決するために反復ループ(ターン)で動作します。ますます強力になりつつあるが、その実践的な展開は、かなりのコストと予測不可能なコストによって妨げられている。固定ターンの制限、特にベースラインの75パーセントでは、"スイートスポット"として機能することを示す。次に、固定ターン戦略が固定限界アプローチを一貫して上回り、同等あるいはより良い解率を達成するとともに、必要なタスクのみにリソースをインテリジェントに割り当てることで、コストをさらに12%-24%削減することを示します。
参考スコア（独自算出の注目度）: 4.980051859336524
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: LLM-powered coding agents, which operate in iterative loops (turns) to solve software engineering tasks, are becoming increasingly powerful. However, their practical deployment is hindered by significant and unpredictable costs. This challenge arises from a combination of factors: quadratically growing token counts with each turn, the high price of models, the large number of turns required for real-world tasks, and the tendency of agents to take inefficient or unnecessary actions. While existing research focuses on optimizing individual turns, the strategic control of the total number of turns remains an underexplored area for managing agent performance and cost. To address this gap, we conduct a comprehensive empirical study on SWE-bench using three state-of-the-art models and evaluate the impact of three distinct turn-control strategies: an unrestricted baseline, a fixed-turn limit with reminders, and a novel dynamic-turn strategy that grants extensions on-demand. Our findings first reveal a fundamental trade-off in the unrestricted setting, where no single model excels across performance, cost, and turn efficiency. We then show that a fixed-turn limit, specifically at the 75th percentile of the baseline, serves as a "sweet spot", substantially reducing costs (by 24%-68%) with minimal impact on solve rates. Most significantly, the dynamic-turn strategy consistently outperforms fixed-limit approaches, achieving comparable or better solve rates while further reducing costs by an additional 12%-24% by intelligently allocating resources only to tasks that need them. This work provides the first systematic analysis of turn-control strategies, offering simple yet effective guidelines for developers to balance cost and efficacy. We demonstrate that dynamic resource allocation is a superior, easy-to-implement approach for deploying powerful yet economically viable coding agents.
Abstract（参考訳）: ソフトウェア工学の課題を解決するために反復ループ(ターン)で動作するLLMベースのコーディングエージェントは、ますます強力になりつつある。しかし、彼らの実践的な展開は、かなりのコストと予測不可能なコストによって妨げられている。この課題は、各ターンでのトークン数の増加、モデルの価格の高騰、現実世界のタスクに必要なターンの多さ、非効率または不要なアクションを取るエージェントの傾向、の2つの要素の組み合わせから生じる。これまでの研究では、個々のターンの最適化に焦点が当てられているが、各ターンの総数の戦略的制御は、エージェントのパフォーマンスとコストを管理するための未調査領域として残されている。このギャップに対処するため、3つの最先端モデルを用いてSWEベンチに関する総合的研究を行い、3つの異なるターンコントロール戦略、すなわち、制限のないベースライン、リマインダー付き固定ターン制限、オンデマンドで拡張を許可する新しい動的ターン戦略の影響を評価する。そこでは, 性能, コスト, ターン効率の両面において, 単一のモデルが排他的に優れているような, 制約のない環境での基本的なトレードオフを明らかにする。次に、固定ターンの制限、特にベースラインの75パーセントは「スイートスポット」として機能し、コストを24%-68%削減し、解決率に最小限の影響を与えることを示した。最も顕著なのは、動的ターン戦略が固定限界アプローチを一貫して上回り、同等またはより良い解率を達成すると同時に、必要なタスクのみにリソースをインテリジェントに割り当てることで、コストをさらに12%-24%削減する。この研究はターンコントロール戦略を初めて体系的に分析し、開発者がコストと効果のバランスをとるためのシンプルで効果的なガイドラインを提供する。動的リソース割り当ては、強力で経済的に実行可能なコーディングエージェントをデプロイする上で、優れた、実装が容易なアプローチであることを示す。

関連論文リスト

ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文参考訳（メタデータ） (2026-02-27T05:22:01Z)
DEPO: Dual-Efficiency Preference Optimization for LLM Agents [75.6723341304463]
本稿では、簡潔な応答とアクションステップの低減を両立させる二重効率優先最適化手法DEPOを提案する。 WebShopとBabyAIの実験によると、DECOはトークンの使用量を最大60.9%削減し、ステップを最大26.9%削減し、パフォーマンスは最大29.3%向上した。
論文参考訳（メタデータ） (2025-11-19T12:38:43Z)
Dynamic Speculative Agent Planning [57.630218933994534]
大規模な言語モデルベースのエージェントは、遅延の禁止と推論コストのために、重要なデプロイメント課題に直面している。本稿では,オンライン強化学習フレームワークである動的投機計画(Dynamic Speculative Planning, DSP)を紹介する。 2つの標準エージェントベンチマークの実験では、DSPは高速加速法に匹敵する効率を達成し、総コストを30%削減し、不要コストを60%まで削減している。
論文参考訳（メタデータ） (2025-09-02T03:34:36Z)
Efficient Agents: Building Effective Agents While Reducing Cost [48.65558640786415]
LLM(Large Language Model)によるエージェントは、複雑なマルチステップタスクに対処するための高度なシステムを実現する。この研究は、現代のエージェントシステムにおける効率効率性トレードオフに関する最初の体系的研究である。
論文参考訳（メタデータ） (2025-07-24T17:56:51Z)
How Far Are We from Optimal Reasoning Efficiency? [23.593914897406943]
大きな推論モデル (LRM) は、拡張されたチェーン・オブ・ソート (CoT) 推論を通じて、顕著な問題解決能力を示す。 LRMはしばしば冗長で冗長な推論トレースを生成する。既存の微調整手法は推論効率を改善することを目的としているが、その効率性を評価することは依然として困難である。
論文参考訳（メタデータ） (2025-06-08T12:18:50Z)
Speculative Reward Model Boosts Decision Making Ability of LLMs Cost-Effectively [13.40488551654639]
本稿では,検索戦略の費用対効果を評価するために3E基準を導入する。本稿では,既存の検索戦略とシームレスに統合するプラグイン・アンド・プレイ・フレームワークであるSpeculative Reward Model (SRM)を提案する。実験の結果,RMは,有効性を保ちながら,従来の検索フレームワークの1/10までコストを削減できることがわかった。
論文参考訳（メタデータ） (2025-05-31T05:32:12Z)
COSMOS: Predictable and Cost-Effective Adaptation of LLMs [21.91455944905485]
大規模言語モデル(LLM)は、多種多様な適応戦略を用いることで、多くのタスクにわたって顕著なパフォーマンスを達成する。最小限のコストで適応結果を効率的に推定する統合予測フレームワークであるCOSMOSを紹介する。
論文参考訳（メタデータ） (2025-04-30T02:06:26Z)
Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。 PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文参考訳（メタデータ） (2025-02-07T00:06:17Z)
Bridging the Reasoning Gap: Small LLMs Can Plan with Generalised Strategies [0.9093413254392775]
資源集約度が低いモデルの推論能力を高めるための2つの手法を提案する。ひとつは、よりリソース集約的なモデルによって生成される、特定のドメイン内のタスクを解決するための一般的な戦略を提供することです。もうひとつは、提案したソリューションの誤りを反復的に修正することで、コスト効率を悪用することである。
論文参考訳（メタデータ） (2025-01-31T00:28:29Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
Optimizing Credit Limit Adjustments Under Adversarial Goals Using Reinforcement Learning [42.303733194571905]
我々は、強化学習技術を用いて最適なクレジットカード制限調整ポリシーを発見し、自動化することを模索する。本研究は、信用限度調整に強化学習フレームワークを適用するための概念構造を確立する。
論文参考訳（メタデータ） (2023-06-27T16:10:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。