論文の概要: Efficient On-Device Agents via Adaptive Context Management
- arxiv url: http://arxiv.org/abs/2511.03728v1
- Date: Wed, 24 Sep 2025 19:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.133557
- Title: Efficient On-Device Agents via Adaptive Context Management
- Title(参考訳): 適応的コンテキスト管理によるデバイス上での効率的なエージェント
- Authors: Sanidhya Vijayvargiya, Rahul Lokesh,
- Abstract要約: オンデバイスAIエージェントは、パーソナライズされた低レイテンシのアシストを提供するが、そのデプロイメントはメモリ容量の制限によって制限される。
3つの相乗的最適化によって駆動される、コンテキスト効率のオンデバイスエージェントのためのフレームワークで、このトレードオフを断ち切る。
我々のエージェントは、文脈を劇的に圧縮しながら、従来のベースラインのパフォーマンスと一致または超えます。
- 参考スコア(独自算出の注目度): 1.1172382217477128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device AI agents offer the potential for personalized, low-latency assistance, but their deployment is fundamentally constrained by limited memory capacity, which restricts usable context. This reduced practical context window creates a trade-off between supporting rich, stateful interactions with complex tool capabilities and maintaining on-device feasibility. We break this trade-off with a framework for context-efficient on-device agents, driven by three synergistic optimizations (1) a dynamic memory system using specialized LoRA adapters to distill conversational history into a compressed, and structured Context State Object; (2) a minimalist serialization format for tool schemas to minimize token overhead per tool; and (3) a just-in-time schema-passing mechanism that loads full tool definitions only upon tool selection. We instantiate this framework by adapting a 3B parameter SLM to context-efficient trajectories and rigorously evaluate it against a conventional baseline on complex user tasks. Our agent matches, or exceeds, the performance of a conventional baseline while dramatically compressing context, achieving more than a 6-fold reduction in initial system prompt context and a 10- to 25-fold reduction in context growth rate based on the interaction verbosity, demonstrating that strategic context management is key to unlocking capable and persistent on-device AI.
- Abstract(参考訳): オンデバイスAIエージェントは、パーソナライズされた低レイテンシのアシストを提供するが、そのデプロイメントは基本的に、使用可能なコンテキストを制限するメモリ容量の制限によって制限される。
この実用的なコンテキストウィンドウの削減は、複雑なツール機能とのリッチでステートフルなインタラクションをサポートし、デバイス上の実現可能性を維持するためのトレードオフを生み出します。
3つの相乗最適化によって駆動される、コンテキスト効率の高いオンデバイスエージェントのためのフレームワークとのトレードオフを断ち切る。(1)特殊なLoRAアダプタを使用して会話履歴を圧縮し構造化されたコンテキスト状態オブジェクトに蒸留する動的メモリシステム、(2)ツールスキーマのための最小限のシリアライズフォーマットでツール毎のトークンオーバーヘッドを最小限に抑えるためのツールスキーマ、(3)ツール選択時にのみツール定義を完全にロードするジャストインタイムスキーマパス機構。
我々は,3BパラメータSLMを文脈効率のよい軌道に適応させ,複雑なユーザタスクのベースラインに対して厳格に評価することで,このフレームワークをインスタンス化する。
我々のエージェントは、コンテキストを劇的に圧縮しながら従来のベースラインのパフォーマンスと一致し、初期システムのプロンプトコンテキストを6倍に減らし、インタラクションの冗長性に基づいてコンテキスト成長率を10倍から25倍に減らし、戦略的コンテキスト管理がデバイス上のAIをアンロックする鍵であることを実証する。
関連論文リスト
- Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks [0.0]
RP-ReActは,低レベルの実行から戦略的計画を切り離して信頼性と効率を向上する,新しいマルチエージェントアプローチである。
RP-ReActは、各サブステップを計画するReasoner Planner Agent(RPA)と、サブステップを具体的なツールインタラクションに変換する1つまたは複数のProxy-Execution Agent(PEA)から構成される。
RP-ReActを6つのオープンウェイト推論モデルの多種多様なセットを用いて、挑戦的なマルチドメインツールQAベンチマークで評価する。
論文 参考訳(メタデータ) (2025-12-03T08:28:40Z) - Z-Space: A Multi-Agent Tool Orchestration Framework for Enterprise-Grade LLM Automation [3.518072776386001]
本稿では,データ生成指向型マルチエージェント協調ツール実行フレームワークZ-Spaceを提案する。
このフレームワークはElemeプラットフォームの技術部門にデプロイされており、大規模なテストデータ生成シナリオを提供している。
生産データは、ツール推論における平均トークン消費を96.26%削減していることを示している。
論文 参考訳(メタデータ) (2025-11-23T03:59:14Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation [32.46570968627392]
低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を実証している。
意味駆動型LoRA検索と動的アグリゲーションを可能にする新しいフレームワークを提案する。
提案手法は画像生成のパーフェマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-04T06:36:00Z) - Autonomous Deep Agent [0.7489814067742621]
Deep Agentは、複雑なマルチフェーズタスクを管理するために設計された高度な自律AIシステムである。
システムの基盤は階層型タスクDAGフレームワーク上に構築されています。
Deep Agentは、自己管理型AIシステムにおいて、新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-02-10T21:46:54Z) - Autonomous Structural Memory Manipulation for Large Language Models Using Hierarchical Embedding Augmentation [0.0]
本研究では,マルチレベルセマンティック構造を通じてトークンの表現を再定義する手段として,階層的な埋め込み拡張を導入する。
その結果、より長い入力シーケンスに対して処理オーバーヘッドが大幅に削減され、計算効率が大幅に向上した。
トークン表現とメモリ構成を動的に調整する能力は、様々な予測不可能な入力条件下でモデルの堅牢性に寄与した。
論文 参考訳(メタデータ) (2025-01-23T22:20:36Z) - Asynchronous Tool Usage for Real-Time Agents [61.3041983544042]
並列処理とリアルタイムツール利用が可能な非同期AIエージェントを導入する。
私たちの重要な貢献は、エージェントの実行とプロンプトのためのイベント駆動有限状態マシンアーキテクチャです。
この研究は、流体とマルチタスクの相互作用が可能なAIエージェントを作成するための概念的なフレームワークと実践的なツールの両方を提示している。
論文 参考訳(メタデータ) (2024-10-28T23:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。