Fugu-MT 論文翻訳(概要): From Knowledge to Noise: CTIM-Rover and the Pitfalls of Episodic Memory in Software Engineering Agents

論文の概要: From Knowledge to Noise: CTIM-Rover and the Pitfalls of Episodic Memory in Software Engineering Agents

arxiv url: http://arxiv.org/abs/2505.23422v1
Date: Thu, 29 May 2025 13:19:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.866199
Title: From Knowledge to Noise: CTIM-Rover and the Pitfalls of Episodic Memory in Software Engineering Agents
Title（参考訳）: 知識からノイズへ:CTIMローバーとソフトウェア工学エージェントにおけるエピソード記憶の落とし穴
Authors: Tobias Lindenbauer, Georg Groh, Hinrich Schütze,
Abstract要約: 我々はAutoCodeRover上に構築されたソフトウェアエンジニアリング(SE)のためのAIエージェントであるCTIM-Roverを紹介する。 CTIM-Roverは、エージェント推論フレームワークをエピソードメモリ、具体的には一般的な、リポジトリレベルのクロスタスクインスタンスメモリで拡張する。 CTIM-Roverは任意の設定でAutoCodeRoverを上回りません。
参考スコア（独自算出の注目度）: 45.325004359321305
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce CTIM-Rover, an AI agent for Software Engineering (SE) built on top of AutoCodeRover (Zhang et al., 2024) that extends agentic reasoning frameworks with an episodic memory, more specifically, a general and repository-level Cross-Task-Instance Memory (CTIM). While existing open-source SE agents mostly rely on ReAct (Yao et al., 2023b), Reflexion (Shinn et al., 2023), or Code-Act (Wang et al., 2024), all of these reasoning and planning frameworks inefficiently discard their long-term memory after a single task instance. As repository-level understanding is pivotal for identifying all locations requiring a patch for fixing a bug, we hypothesize that SE is particularly well positioned to benefit from CTIM. For this, we build on the Experiential Learning (EL) approach ExpeL (Zhao et al., 2024), proposing a Mixture-Of-Experts (MoEs) inspired approach to create both a general-purpose and repository-level CTIM. We find that CTIM-Rover does not outperform AutoCodeRover in any configuration and thus conclude that neither ExpeL nor DoT-Bank (Lingam et al., 2024) scale to real-world SE problems. Our analysis indicates noise introduced by distracting CTIM items or exemplar trajectories as the likely source of the performance degradation.
Abstract（参考訳）: 我々はAutoCodeRover(Zhang et al , 2024)上に構築されたソフトウェアエンジニアリング(SE)のためのAIエージェントであるCTIM-Roverを紹介した。既存のオープンソースSEエージェントは、主にReAct(Yao et al , 2023b)、Reflexion(Shinn et al , 2023)、Code-Act(Wang et al , 2024)に依存しているが、これらの推論および計画フレームワークはすべて、単一のタスクインスタンスの後に長期記憶を非効率に破棄している。リポジトリレベルの理解は、バグを修正するのにパッチを必要とするすべての場所を特定する上で重要であるため、特にSEはCTIMの恩恵を受けるのに十分な位置にあると仮定する。そこで我々はExperiential Learning (EL) アプローチである ExpeL (Zhao et al , 2024) を構築し、Mixture-Of-Experts (MoEs) にインスパイアされたアプローチを提案し、汎用的およびリポジトリレベルのCTIMを作成する。その結果, CTIM-Rover は AutoCodeRover をいかなる構成でも上回り, ExpeL も DoT-Bank (Lingam et al , 2024) も実世界のSE問題にスケールしないことがわかった。分析の結果,CTIM項目や軌跡を逸脱して発生するノイズが,性能劣化の原因となる可能性が示唆された。

関連論文リスト

Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning [31.540626068273014]
我々はQwen2.5-72B-Instructに基づくエージェントを訓練し、実世界のソフトウェア工学の課題を解決する。提案手法は,SWE-bench Verifiedベンチマークにおけるエージェントの成功率を20%の微調整ベースラインから39%に向上させる。
論文参考訳（メタデータ） (2025-08-05T14:30:47Z)
Trae Agent: An LLM-based Agent for Software Engineering with Test-time Scaling [18.390443362388623]
Trae Agentは、リポジトリレベルのイシュー解決のための、最初のエージェントベースのアンサンブル推論アプローチである。広範に評価されたSWEベンチマークにおいて,3つの主要な大規模言語モデル(LLM)を用いて実験を行った。 Trae Agentは、Pass@1の観点で、すべてのベースラインに対して平均10.22%の改善で、一貫して優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-31T09:37:22Z)
DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文参考訳（メタデータ） (2025-07-29T17:55:23Z)
SemAgent: A Semantics Aware Program Repair Agent [14.80363334219173]
SemAgentは、イシュー、コード、実行セマンティクスを利用して完全なパッチを生成する、新しいワークフローベースのプロシージャである。我々は、(a)実行セマンティクスを活用して関連するコンテキストを検索し、(b)一般化された抽象化を通して問題セマンティクスを理解し、(c)この抽象化のコンテキスト内でコードセマンティクスを分離する、という新しいパイプラインを通してこれを実現する。提案手法は,SWEBench-Liteベンチマークで44.66%の解率を達成し,ワークフローベースのアプローチを全て上回り,ベースラインと比較して7.66%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2025-06-19T23:27:58Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。 Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文参考訳（メタデータ） (2024-09-26T21:44:11Z)
SpecRover: Code Intent Extraction via LLMs [7.742980618437681]
仕様推論は、高品質なプログラムパッチを作成するのに役立ちます。当社のアプローチであるSpecRover(AutoCodeRover-v2)は,オープンソースのLLMエージェントであるAutoCodeRover上に構築されています。 2294のGitHubイシューからなる完全なSWE-Benchの評価では、AutoCodeRoverよりも50%以上改善されている。
論文参考訳（メタデータ） (2024-08-05T04:53:01Z)
Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。 Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。このスキームの繰り返し繰り返しにおける推論の改善を示す。例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文参考訳（メタデータ） (2024-04-30T17:28:05Z)
Analysis of the Memorization and Generalization Capabilities of AI Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。提案フレームワークの一般化と記憶性能を理論的に解析した。
論文参考訳（メタデータ） (2023-09-18T21:00:01Z)
Reinforcement Learning for Branch-and-Bound Optimisation using Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。我々は現在最先端のRL分岐アルゴリズムを3～5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文参考訳（メタデータ） (2022-05-28T06:08:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。