論文の概要: CaveAgent: Transforming LLMs into Stateful Runtime Operators
- arxiv url: http://arxiv.org/abs/2601.01569v1
- Date: Sun, 04 Jan 2026 15:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.537086
- Title: CaveAgent: Transforming LLMs into Stateful Runtime Operators
- Title(参考訳): CaveAgent: LLMをステートフルランタイムオペレータに変換する
- Authors: Maohao Ran, Zhenglin Wan, Cooper Lin, Yanting Zhang, Hongyu Xin, Hongwei Fan, Yibo Xu, Beier Luo, Yaxin Zhou, Wangbo Zhao, Lijie Yang, Lang Feng, Fuchao Yang, Jingxuan Wu, Yiqiao Huang, Chendong Ma, Dailing Jiang, Jianbo Deng, Sihui Han, Bo An, Yike Guo, Jun Song,
- Abstract要約: CaveAgentは"LLM-as-Text-Generator"から"LLM-as-as-Runtime"にパラダイムを変換するフレームワークです。
CaveAgentは小売業のタスクで10.5%の成功率の向上を実現し、マルチターンシナリオではトークン総消費を28.4%削減している。
- 参考スコア(独自算出の注目度): 31.548422546991915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based agents are increasingly capable of complex task execution, yet current agentic systems remain constrained by text-centric paradigms. Traditional approaches rely on procedural JSON-based function calling, which often struggles with long-horizon tasks due to fragile multi-turn dependencies and context drift. In this paper, we present CaveAgent, a framework that transforms the paradigm from "LLM-as-Text-Generator" to "LLM-as-Runtime-Operator." We introduce a Dual-stream Context Architecture that decouples state management into a lightweight semantic stream for reasoning and a persistent, deterministic Python Runtime stream for execution. In addition to leveraging code generation to efficiently resolve interdependent sub-tasks (e.g., loops, conditionals) in a single step, we introduce \textit{Stateful Runtime Management} in CaveAgent. Distinct from existing code-based approaches that remain text-bound and lack the support for external object injection and retrieval, CaveAgent injects, manipulates, and retrieves complex Python objects (e.g., DataFrames, database connections) that persist across turns. This persistence mechanism acts as a high-fidelity external memory to eliminate context drift, avoid catastrophic forgetting, while ensuring that processed data flows losslessly to downstream applications. Comprehensive evaluations on Tau$^2$-bench, BFCL and various case studies across representative SOTA LLMs demonstrate CaveAgent's superiority. Specifically, our framework achieves a 10.5\% success rate improvement on retail tasks and reduces total token consumption by 28.4\% in multi-turn scenarios. On data-intensive tasks, direct variable storage and retrieval reduces token consumption by 59\%, allowing CaveAgent to handle large-scale data that causes context overflow failures in both JSON-based and Code-based agents.
- Abstract(参考訳): LLMベースのエージェントは複雑なタスク実行が可能になっているが、現在のエージェントシステムはテキスト中心のパラダイムによって制約を受け続けている。
従来のアプローチはプロシージャJSONベースの関数呼び出しに依存しており、脆弱なマルチターン依存関係とコンテキストドリフトのために、長い水平タスクに苦労することが多い。
本稿では,このパラダイムを"LLM-as-Text-Generator"から"LLM-as-Runtime-Operator"に変換するフレームワークであるCaveAgentを紹介する。
状態管理を、推論のための軽量なセマンティックストリームと、実行のための永続的決定論的Pythonランタイムストリームに分離する、デュアルストリームコンテキストアーキテクチャを導入します。
コード生成を利用して1ステップで相互依存のサブタスク(例えばループ、条件)を効率的に解決するのに加えて、CaveAgentで \textit{Stateful Runtime Management}を導入します。
テキストバウンドであり、外部オブジェクトインジェクションと検索のサポートがない既存のコードベースのアプローチとは違い、CaveAgentは複雑なPythonオブジェクト(例えば、DataFrames、データベース接続)をインジェクションし、操作し、検索する。
この永続化メカニズムは、コンテキストドリフトを排除し、壊滅的な忘れを回避し、処理されたデータが下流アプリケーションに損失なく流れることを保証するために、高忠実な外部メモリとして機能する。
Tau$^2$-bench, BFCLおよび代表的なSOTA LLMの様々なケーススタディに関する総合的な評価は、CaveAgentの優位性を示している。
具体的には,小売業務における10.5 %の成功率向上を実現し,マルチターンシナリオにおけるトークン総消費量を28.4 %削減する。
データ集約的なタスクでは、直接変数ストレージと検索によってトークンの消費が59\%削減され、CaveAgentはJSONベースのエージェントとコードベースのエージェントの両方でコンテキストオーバーフロー障害を引き起こす大規模なデータを処理することができる。
関連論文リスト
- SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - AgentProg: Empowering Long-Horizon GUI Agents with Program-Guided Context Management [24.465443389008055]
AgentProgはエージェントコンテキスト管理のためのプログラム誘導型アプローチである。
インタラクション履歴を変数と制御フローを備えたプログラムとして再構成する。
AndroidWorldと拡張ロングホライゾンタスクスイートの実験では、AgentProgが最先端の成功率を達成したことが示されています。
論文 参考訳(メタデータ) (2025-12-11T07:37:38Z) - Stop Wasting Your Tokens: Towards Efficient Runtime Multi-Agent Systems [11.42175340352007]
SupervisorAgentは、ランタイムと適応的な監視のための軽量でモジュール化されたフレームワークです。
SupervisorAgentは、エラーを積極的に修正し、非効率な振る舞いを誘導し、観察を浄化するために、臨界点に介入する。
挑戦的なGAIAベンチマークでは、SupervisorAgentは成功率を損なうことなく、Smolagentフレームワークのトークン消費を平均29.45%削減した。
論文 参考訳(メタデータ) (2025-10-30T15:12:59Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。