Fugu-MT 論文翻訳(概要): DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal

論文の概要: DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal

arxiv url: http://arxiv.org/abs/2503.14269v1
Date: Tue, 18 Mar 2025 14:02:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:13.04817
Title: DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal
Title（参考訳）: DARS: 適応木トラバーサルによる符号化エージェント性能向上のための動的アクション再サンプリング
Authors: Vaibhav Aggarwal, Ojasv Kamal, Abhinav Japesh, Zhijing Jin, Bernhard Schölkopf,
Abstract要約: 大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
参考スコア（独自算出の注目度）: 55.13854171147104
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have revolutionized various domains, including natural language processing, data analysis, and software development, by enabling automation. In software engineering, LLM-powered coding agents have garnered significant attention due to their potential to automate complex development tasks, assist in debugging, and enhance productivity. However, existing approaches often struggle with sub-optimal decision-making, requiring either extensive manual intervention or inefficient compute scaling strategies. To improve coding agent performance, we present Dynamic Action Re-Sampling (DARS), a novel inference time compute scaling approach for coding agents, that is faster and more effective at recovering from sub-optimal decisions compared to baselines. While traditional agents either follow linear trajectories or rely on random sampling for scaling compute, our approach DARS works by branching out a trajectory at certain key decision points by taking an alternative action given the history of the trajectory and execution feedback of the previous attempt from that point. We evaluate our approach on SWE-Bench Lite benchmark, demonstrating that this scaling strategy achieves a pass@k score of 55% with Claude 3.5 Sonnet V2. Our framework achieves a pass@1 rate of 47%, outperforming state-of-the-art (SOTA) open-source frameworks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらし、自動化を実現している。ソフトウェア工学において、LCMを利用したコーディングエージェントは、複雑な開発タスクの自動化、デバッグのアシスト、生産性の向上など、大きな注目を集めている。しかしながら、既存のアプローチは、広範囲な手動介入または非効率的な計算スケーリング戦略を必要とするため、亜最適決定に苦しむことが多い。符号化エージェントの性能を向上させるために,符号化エージェントのための新しい推論時間計算スケーリングアプローチであるDynamic Action Re-Sampling(DARS)を提案する。従来のエージェントは線形軌跡に従うか、ランダムサンプリングに頼って計算をスケールするが、我々のアプローチDARSは、それまでの試行の歴史と実行フィードバックを考慮に入れて、ある重要な決定ポイントで軌道を分岐することで機能する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。当社のフレームワークは47%のパス@1レートを実現し,SOTA(State-of-the-art)オープンソースフレームワークよりも優れています。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Scalability of Reinforcement Learning Methods for Dispatching in Semiconductor Frontend Fabs: A Comparison of Open-Source Models with Real Industry Datasets [40.434003972007744]
我々は,オープンソースのシミュレーションモデルと実業界データセットを比較し,最適化手法のスケーリング方法を評価する。提案した進化戦略に基づく手法は、同等の政策段階に基づく手法よりもはるかに優れていることを示す。進化戦略を用いて,2桁のタドネス向上と1桁のスループット向上を観察した。
論文参考訳（メタデータ） (2025-05-16T11:32:29Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。 RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。 RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文参考訳（メタデータ） (2025-01-31T17:19:57Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
現在の大規模言語モデル(LLM)ベースのソフトウェアエージェントは、しばしば線形でシーケンシャルなプロセスに従う。モンテカルロ木探索(MCTS)と自己改善機構を統合したマルチエージェントフレームワークであるSWE-Searchを提案する。これは、複雑なソフトウェアエンジニアリング環境における自己評価駆動検索技術の可能性を強調している。
論文参考訳（メタデータ） (2024-10-26T22:45:56Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文参考訳（メタデータ） (2022-02-10T16:07:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。