論文の概要: Context as a Tool: Context Management for Long-Horizon SWE-Agents
- arxiv url: http://arxiv.org/abs/2512.22087v1
- Date: Fri, 26 Dec 2025 17:15:47 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:59:41.697448
- Title: Context as a Tool: Context Management for Long-Horizon SWE-Agents
- Title(参考訳): ツールとしてのコンテキスト:長期SWEエージェントのコンテキスト管理
- Authors: Shukai Liu, Jian Yang, Bo Jiang, Yizhi Li, Jinyang Guo, Xianglong Liu, Bryan Dai,
- Abstract要約: 我々は,エージェントの意思決定プロセスに統合された呼び出し可能なツールにコンテキストメンテナンスを高める新しいコンテキスト管理パラダイムであるCATを提案する。
CATは、安定なタスクセマンティクス、凝縮した長期記憶、高忠実な短期相互作用からなる構造化されたコンテキストワークスペースを形式化する。
我々は,SWE圧縮機が57.6%の解率に達し,ReActベースのエージェントと静的圧縮ベースラインを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 38.950807465620365
- License:
- Abstract: Agents based on large language models have recently shown strong potential on real-world software engineering (SWE) tasks that require long-horizon interaction with repository-scale codebases. However, most existing agents rely on append-only context maintenance or passively triggered compression heuristics, which often lead to context explosion, semantic drift, and degraded reasoning in long-running interactions. We propose CAT, a new context management paradigm that elevates context maintenance to a callable tool integrated into the decision-making process of agents. CAT formalizes a structured context workspace consisting of stable task semantics, condensed long-term memory, and high-fidelity short-term interactions, and enables agents to proactively compress historical trajectories into actionable summaries at appropriate milestones. To support context management for SWE-agents, we propose a trajectory-level supervision framework, CAT-GENERATOR, based on an offline data construction pipeline that injects context-management actions into complete interaction trajectories. Using this framework, we train a context-aware model, SWE-Compressor. Experiments on SWE-Bench-Verified demonstrate that SWE-Compressor reaches a 57.6% solved rate and significantly outperforms ReAct-based agents and static compression baselines, while maintaining stable and scalable long-horizon reasoning under a bounded context budget.
- Abstract(参考訳): 大規模言語モデルに基づくエージェントは、リポジトリスケールのコードベースとの長時間のインタラクションを必要とする現実世界のソフトウェアエンジニアリング(SWE)タスクに強い可能性を示している。
しかし、既存のエージェントのほとんどは、追加のみのコンテキスト保守や受動的にトリガーされた圧縮ヒューリスティックに依存しており、長期にわたる相互作用におけるコンテキストの爆発、セマンティックドリフト、劣化した推論につながることが多い。
我々は,エージェントの意思決定プロセスに統合された呼び出し可能なツールにコンテキストメンテナンスを高める新しいコンテキスト管理パラダイムであるCATを提案する。
CATは、安定なタスクセマンティクス、凝縮した長期記憶、高忠実な短期相互作用からなる構造化されたコンテキストワークスペースを定式化し、エージェントが適切なマイルストーンにおいて、過去のトラジェクトリを実行可能な要約に積極的に圧縮することを可能にする。
SWEエージェントのコンテキスト管理を支援するために,オフラインデータ構築パイプラインをベースとしたトラジェクトリレベルの監視フレームワークであるCAT-GENERATORを提案する。
このフレームワークを使用して、コンテキスト認識モデルであるSWE-Compressorをトレーニングする。
SWE-Bench-Verifiedの実験では、SWE-Compressorは57.6%の解率に達し、ReActベースのエージェントと静的圧縮ベースラインを著しく上回っている。
関連論文リスト
- CoDA: A Context-Decoupled Hierarchical Agent with Reinforcement Learning [12.710191300398924]
我々は,低レベルの実行から高レベルの計画を切り離す強化学習フレームワークであるCoDAを紹介する。
CoDAは、複雑なマルチホップ質問応答ベンチマークにおける最先端のベースラインよりも、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-12-14T14:41:29Z) - Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks [0.0]
RP-ReActは,低レベルの実行から戦略的計画を切り離して信頼性と効率を向上する,新しいマルチエージェントアプローチである。
RP-ReActは、各サブステップを計画するReasoner Planner Agent(RPA)と、サブステップを具体的なツールインタラクションに変換する1つまたは複数のProxy-Execution Agent(PEA)から構成される。
RP-ReActを6つのオープンウェイト推論モデルの多種多様なセットを用いて、挑戦的なマルチドメインツールQAベンチマークで評価する。
論文 参考訳(メタデータ) (2025-12-03T08:28:40Z) - Scaling Long-Horizon LLM Agent via Context-Folding [46.685552398338295]
エージェントが作業コンテキストを積極的に管理することを可能にするフレームワークであるContext-Foldingを紹介します。
エージェントは、サブトラックに手続き的に分岐してサブタスクを処理し、完了時に折り畳み、結果の簡潔な要約を保持しながら中間ステップを崩壊させる。
論文 参考訳(メタデータ) (2025-10-13T22:00:58Z) - COMPASS: Enhancing Agent Long-Horizon Reasoning with Evolving Context [17.575806280348797]
小さなエラーはステップにまたがって複雑で、最先端のモデルでさえしばしばコヒーレンスを幻覚または失う。
本稿では,戦術的実行,戦略的監視,文脈的組織を3つの特殊コンポーネントに分離する軽量階層型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T20:14:26Z) - ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。
リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。
実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-06T07:49:52Z) - Efficient On-Device Agents via Adaptive Context Management [1.1172382217477128]
オンデバイスAIエージェントは、パーソナライズされた低レイテンシのアシストを提供するが、そのデプロイメントはメモリ容量の制限によって制限される。
3つの相乗的最適化によって駆動される、コンテキスト効率のオンデバイスエージェントのためのフレームワークで、このトレードオフを断ち切る。
我々のエージェントは、文脈を劇的に圧縮しながら、従来のベースラインのパフォーマンスと一致または超えます。
論文 参考訳(メタデータ) (2025-09-24T19:46:50Z) - ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。
既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。
本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:38:23Z) - Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文 参考訳(メタデータ) (2025-07-04T17:37:15Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。