論文の概要: The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management
- arxiv url: http://arxiv.org/abs/2508.21433v3
- Date: Mon, 27 Oct 2025 15:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.764356
- Title: The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management
- Title(参考訳): 複雑度トラップ:単純な観察マスキングはエージェントコンテキスト管理のためのLLM要約と同じくらい効果的である
- Authors: Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov,
- Abstract要約: LLM(Large Language Model)ベースのエージェントは、反復的推論、探索、ツール使用によって複雑なタスクを解決する。
本稿では,SWE-bench Verified上でのSWE-agentにおけるこれらのアプローチの体系的比較について述べる。
簡易な環境監視マスキング戦略は,LLM要約の解解率をわずかに上回りながら,原材料と比較してコストを半減することがわかった。
- 参考スコア(独自算出の注目度): 2.582081036460148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based agents solve complex tasks through iterative reasoning, exploration, and tool-use, a process that can result in long, expensive context histories. While state-of-the-art Software Engineering (SE) agents like OpenHands or Cursor use LLM-based summarization to tackle this issue, it is unclear whether the increased complexity offers tangible performance benefits compared to simply omitting older observations. We present a systematic comparison of these approaches within SWE-agent on SWE-bench Verified across five diverse model configurations. Moreover, we show initial evidence of our findings generalizing to the OpenHands agent scaffold. We find that a simple environment observation masking strategy halves cost relative to the raw agent while matching, and sometimes slightly exceeding, the solve rate of LLM summarization. Additionally, we introduce a novel hybrid approach that further reduces costs by 7% and 11% compared to just observation masking or LLM summarization, respectively. Our findings raise concerns regarding the trend towards pure LLM summarization and provide initial evidence of untapped cost reductions by pushing the efficiency-effectiveness frontier. We release code and data for reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、反復的推論、探索、ツールユースを通じて複雑なタスクを解決する。
OpenHandsやCursorのような最先端のソフトウェアエンジニアリング(SE)エージェントは、この問題に対処するためにLLMベースの要約を使用しているが、複雑さの増加は、単に古い観察を省略するよりも、具体的なパフォーマンス上のメリットを提供するかどうかは不明だ。
5種類のモデル構成で検証されたSWE-bench上のSWE-agent内のこれらのアプローチを体系的に比較する。
さらに,OpenHandsエージェントの足場に一般化した発見の初期の証拠を示す。
簡易な環境監視マスキング戦略は,LLM要約の解解率をわずかに上回りながら,原材料と比較してコストを半減することがわかった。
さらに,観測マスキングやLCM要約に比べて,コストを7%,コストを11%削減する新しいハイブリッド手法を提案する。
本研究は,LLM要約の傾向に懸念を呈し,効率効率性フロンティアを推し進めることで,未完成のコスト削減の初期の証拠を提供する。
再現性のためのコードとデータをリリースします。
関連論文リスト
- RelayLLM: Efficient Reasoning via Collaborative Decoding [23.351598429979024]
RelayLLMはトークンレベルのコラボレーティブデコーディングによる効率的な推論のための新しいフレームワークである。
RelayLLM の平均精度は 49.52% であり,両モデル間の性能ギャップを効果的に埋めることを示す。
論文 参考訳(メタデータ) (2026-01-08T17:56:16Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - LimRank: Less is More for Reasoning-Intensive Information Reranking [58.32304478331711]
既存のアプローチは、情報再構成タスクにLLMを適用するために、大規模な微調整に依存するのが一般的である。
本研究では,LLMを最小限の高品質の監視のみを用いて効果的に適用できることを実証する。
論文 参考訳(メタデータ) (2025-10-27T17:19:37Z) - Adaptive Reasoning Executor: A Collaborative Agent System for Efficient Reasoning [21.75018489673356]
思考の連鎖と深い推論は複雑なタスクのパフォーマンスを大幅に向上させる。
すべての問題に深い推論を適用するのは、計算コストがかかる。
本稿では,小規模および大規模言語モデルを統合した補完エージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-10-15T06:59:07Z) - AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents [60.881609323604685]
Agent Synthはスケーラブルで費用効率のよいパイプラインで、高品質なタスクとトラジェクトリデータセットを自動的に合成する。
我々のパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
論文 参考訳(メタデータ) (2025-06-17T05:46:52Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - ConSol: Sequential Probability Ratio Testing to Find Consistent LLM Reasoning Paths Efficiently [3.6393221632527686]
小言語モデル(LLM)は、回答を提供する前に中間推論ステップを生成することで複雑なタスクを解決する。
広く使われている自己整合性法は、精度を向上させるために複数の推論経路を集約することにより、これらのコストをさらに高める。
十分な整合性が達成できればサンプリングを動的に停止するために,逐次確率比検定(SPRT)を活用することを提案する。
論文 参考訳(メタデータ) (2025-03-22T00:07:28Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling [38.7578639980701]
自己改善手法により、大規模な言語モデルがソリューション自体を生成できる。
モデルでは、簡単なクエリをオーバーサンプルし、まだマスターしていないクエリをアンダーサンプルする傾向があります。
本稿では,重み付きデータ抽出の効率化を目的とした,ガイド付き自己改善(GSI)について紹介する。
論文 参考訳(メタデータ) (2024-11-01T17:18:45Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - More Agents Is All You Need [16.372072265248192]
単にサンプリング・アンド・投票方式によって,大規模言語モデル(LLM)の性能は,エージェントの数がインスタンス化されるに従ってスケールすることがわかった。
論文 参考訳(メタデータ) (2024-02-03T05:55:24Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。