論文の概要: The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management
- arxiv url: http://arxiv.org/abs/2508.21433v2
- Date: Fri, 05 Sep 2025 06:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 12:28:42.556846
- Title: The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management
- Title(参考訳): 複雑度トラップ:単純な観察マスキングはエージェントコンテキスト管理のためのLLM要約と同じくらい効果的である
- Authors: Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov,
- Abstract要約: 単純な観察・マスキング戦略は、マッチング中に生のエージェントと比較してコストを半減し、時には若干上回っても、要約の解答率を半減することを示した。
少なくとも SWE-bench Verified 上の SWE-agent 内では、最も効率的かつ効率的なコンテキスト管理が最も簡単である。
- 参考スコア(独自算出の注目度): 2.582081036460148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based agents solve complex tasks through iterative reasoning, exploration, and tool-use, a process that can result in long, expensive context histories. While state-of-the-art Software Engineering ( SE) agents like OpenHands or Cursor use LLM-based summarization to tackle this issue, it is unclear whether the increased complexity offers tangible performance benefits compared to simply omitting older observations. We present a systematic comparison of these strategies within SWE-agent on SWE-bench Verified across five diverse model configurations. We find that a simple observation-masking strategy halves cost relative to a raw agent while matching, and sometimes slightly exceeding, the solve rate of LLM summarization. For example, with Qwen3-Coder 480B, masking improves solve rate from 53.8% (raw agent) to 54.8%, while remaining competitive with summarization at a lower cost. These results suggest that, at least within SWE-agent on SWE-bench Verified, the most effective and efficient context management can be the simplest. We release code and data for reproducibility
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、反復的推論、探索、ツールユースを通じて複雑なタスクを解決する。
OpenHandsやCursorのような最先端のソフトウェアエンジニアリング(SE)エージェントは、この問題に対処するためにLLMベースの要約を使用しているが、複雑さの増加は、単に古い観察を省略するよりも、具体的なパフォーマンス上のメリットを提供するかどうかは不明だ。
本稿では,SWE-bench 上でのSWE-agent におけるこれらの戦略の体系的比較を5つのモデル構成で検証する。
単純な観察・マスキング手法は,LLM要約の解解率をわずかに上回りながら,原材料に対してコストを半減することがわかった。
例えば、Qwen3-Coder 480Bでは、マスクは解法率を53.8%(生薬)から54.8%に改善する一方、要約と競争力は低いコストで維持する。
これらの結果は、少なくとも SWE-bench Verified 上の SWE-agent 内では、最も効果的で効率的なコンテキスト管理が最も簡単であることが示唆されている。
再現性のためのコードとデータをリリースする
関連論文リスト
- AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents [60.881609323604685]
Agent Synthはスケーラブルで費用効率のよいパイプラインで、高品質なタスクとトラジェクトリデータセットを自動的に合成する。
我々のパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
論文 参考訳(メタデータ) (2025-06-17T05:46:52Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - ConSol: Sequential Probability Ratio Testing to Find Consistent LLM Reasoning Paths Efficiently [3.6393221632527686]
小言語モデル(LLM)は、回答を提供する前に中間推論ステップを生成することで複雑なタスクを解決する。
広く使われている自己整合性法は、精度を向上させるために複数の推論経路を集約することにより、これらのコストをさらに高める。
十分な整合性が達成できればサンプリングを動的に停止するために,逐次確率比検定(SPRT)を活用することを提案する。
論文 参考訳(メタデータ) (2025-03-22T00:07:28Z) - Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling [38.7578639980701]
自己改善手法により、大規模な言語モデルがソリューション自体を生成できる。
モデルでは、簡単なクエリをオーバーサンプルし、まだマスターしていないクエリをアンダーサンプルする傾向があります。
本稿では,重み付きデータ抽出の効率化を目的とした,ガイド付き自己改善(GSI)について紹介する。
論文 参考訳(メタデータ) (2024-11-01T17:18:45Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - More Agents Is All You Need [16.372072265248192]
単にサンプリング・アンド・投票方式によって,大規模言語モデル(LLM)の性能は,エージェントの数がインスタンス化されるに従ってスケールすることがわかった。
論文 参考訳(メタデータ) (2024-02-03T05:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。