論文の概要: A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression
- arxiv url: http://arxiv.org/abs/2604.19572v2
- Date: Tue, 28 Apr 2026 18:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 13:51:53.853305
- Title: A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression
- Title(参考訳): 観測文脈圧縮による効率的な端末エージェントの自己進化フレームワーク
- Authors: Jincheng Ren, Siwei Wu, Yizhi Li, Kang Zhu, Shu Xu, Boyu Feng, Ruibin Yuan, Wei Zhang, Riza Batista-Navarro, Jian Yang, Chenghua Lin,
- Abstract要約: TACOは、既存の端末エージェントのためのプラグアンドプレイ、トレーニング不要、自己進化型ターミナルエージェント圧縮フレームワークである。
相互作用軌跡から構造化圧縮規則を発見し、洗練し、再利用する。
エージェントの足場とバックボーンモデル間のタスクパフォーマンスとトークン効率を一貫して改善する。
- 参考スコア(独自算出の注目度): 39.60395856651371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As terminal agents scale to long-horizon, multi-turn workflows, a key bottleneck is not merely limited context length, but the accumulation of noisy terminal observations in the interaction history. Retaining raw observations preserves useful environment feedback, but also leads to context saturation and high token cost; conversely, naive compression may discard task-critical signals needed for subsequent actions. Because terminal environments are highly heterogeneous across repositories, commands, and execution states, heuristic-based or fixed-prompt compression methods are difficult to generalize. We propose TACO, a plug-and-play, training-free, self-evolving Terminal Agent Compression framework for existing terminal agents. TACO automatically discovers, refines, and reuses structured compression rules from interaction trajectories, enabling workflow-adaptive filtering of low-value terminal outputs while preserving task-relevant observations. Experiments on TerminalBench (TB 1.0 and TB 2.0) and four additional terminal-related benchmarks, including SWE-Bench Lite, CompileBench, DevEval, and CRUST-Bench, show that TACO consistently improves task performance and token efficiency across agent scaffolds and backbone models. On TerminalBench, TACO yields 1%-4% accuracy gains across strong agentic models and improves accuracy by around 2%-3% under the same token budget. On additional terminal-related benchmarks, it reduces total token consumption while maintaining or improving task success rates. These results suggest that self-evolving, workflow-adaptive observation compression is an effective path toward more reliable and efficient long-horizon terminal agents. The code is publicly available at https://github.com/multimodal-art-projection/TACO.
- Abstract(参考訳): 終端エージェントが長時間のマルチターンワークフローにスケールするにつれて、重要なボトルネックは単にコンテキストの長さに制限されるだけでなく、相互作用履歴におけるノイズの多い終端観測の蓄積である。
生の観測を保持することは、有用な環境フィードバックを保持するだけでなく、コンテキスト飽和と高いトークンコストをもたらす。
端末環境はリポジトリ,コマンド,実行状態間で非常に異質であるため,ヒューリスティックベースあるいは固定プロンプト圧縮法は一般化が難しい。
本稿では,既存の端末エージェントを対象とした,プラグアンドプレイ,トレーニング不要,自己進化型端末エージェント圧縮フレームワークTACOを提案する。
TACOは、タスク関連観測を保存しながら、低値端末出力のワークフロー適応フィルタリングを可能にする、相互作用軌跡から構造化された圧縮ルールを自動的に発見、洗練、再利用する。
TerminalBench(TB 1.0とTB 2.0)およびSWE-Bench Lite、CompileBench、DevEval、CRUST-Benchを含む4つの端末関連ベンチマークの実験は、TACOがエージェントの足場とバックボーンモデル間でタスク性能とトークン効率を一貫して改善していることを示している。
TerminalBenchでは、TACOは強力なエージェントモデルに対して1%-4%の精度向上を実現し、同じトークン予算の下で約2%-3%の精度向上を実現している。
追加の端末関連ベンチマークでは、タスクの成功率を維持したり改善したりしながら、トークンの総消費を減らす。
これらの結果は, 自己進化型ワークフロー適応型観測圧縮が, より信頼性が高く, 効率的な長距離端末エージェントへの効果的な経路であることを示唆している。
コードはhttps://github.com/multimodal-art-projection/TACO.comで公開されている。
関連論文リスト
- Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning [82.89535601592739]
マルチレベル検証を用いた自己進化型合成により,信頼性の高い基本ツール利用軌跡を生成する2段階パイプラインを提案する。
これらの拡張は、トラクタツール、間接的または曖昧なユーザクエリ、ノイズ、マルチフォーマット、あるいは誤ったツール出力を導入します。
本設計では,標準事例に対する参照マッチングによる報酬の自動計算と,エラー検出などの特別な動作に対する軽量な判断支援検証を実現する。
論文 参考訳(メタデータ) (2026-04-10T18:38:52Z) - Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity [54.95089105944234]
視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。
2段階パイプラインを特徴とする訓練不要なSynergistic Importance-DiversityアプローチPruneSIDを提案する。
LLaVA-NeXTでは11.1%のトークン保持率で96.3%の精度、極端な圧縮速度(5.6%)で92.8%の精度を実現した。
論文 参考訳(メタデータ) (2026-03-10T10:31:58Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments [36.81059045059001]
終端型タスクのトレーニングエージェントモデルは、現実的な長距離相互作用を捉える高品質な終端軌道に依存する。
我々は,Dockerに準拠したタスクインスタンスを生成し,エージェントトラジェクトリを実行可能なバリデーションコードで合成する,スケーラブルなパイプラインである textbfTerminalTraj を提案する。
TerminalTrajを使って32KのDockerイメージをキュレートし、8つのドメインにわたる50,733の認証済みターミナルトラジェクトリを生成します。
論文 参考訳(メタデータ) (2026-02-01T14:09:23Z) - Endless Terminals: Scaling RL Environments for Terminal Agents [39.60665149203152]
Endless Terminalsは、人間のアノテーションを使わずに端末用タスクを手続き的に生成する、完全に自律的なパイプラインである。
我々は、バイナリエピソードレベルの報酬と最小の相互作用ループを持つバニラPPOを使用してエージェントを訓練する。
これらの改善は人為的なベンチマークに移行する。
論文 参考訳(メタデータ) (2026-01-23T04:39:55Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness in Conversational AI [5.165179548592513]
AgentChangeBenchは、ツール拡張言語モデルエージェントがミッドダイアログのゴールシフトにどのように適応するかを測定するために設計されたベンチマークである。
本フレームワークは,タスク成功率(TSR),信頼性のためのツール利用効率(TUE),無駄な作業のためのツールコール冗長率(TCRR),適応のためのゴールシフト回復時間(GSRT)の4つの相補的指標を用いて評価を定式化する。
論文 参考訳(メタデータ) (2025-10-20T23:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。