Fugu-MT 論文翻訳(概要): Efficient On-Device Agents via Adaptive Context Management

論文の概要: Efficient On-Device Agents via Adaptive Context Management

arxiv url: http://arxiv.org/abs/2511.03728v1
Date: Wed, 24 Sep 2025 19:46:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-07 19:06:32.133557
Title: Efficient On-Device Agents via Adaptive Context Management
Title（参考訳）: 適応的コンテキスト管理によるデバイス上での効率的なエージェント
Authors: Sanidhya Vijayvargiya, Rahul Lokesh,
Abstract要約: オンデバイスAIエージェントは、パーソナライズされた低レイテンシのアシストを提供するが、そのデプロイメントはメモリ容量の制限によって制限される。 3つの相乗的最適化によって駆動される、コンテキスト効率のオンデバイスエージェントのためのフレームワークで、このトレードオフを断ち切る。我々のエージェントは、文脈を劇的に圧縮しながら、従来のベースラインのパフォーマンスと一致または超えます。
参考スコア（独自算出の注目度）: 1.1172382217477128
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: On-device AI agents offer the potential for personalized, low-latency assistance, but their deployment is fundamentally constrained by limited memory capacity, which restricts usable context. This reduced practical context window creates a trade-off between supporting rich, stateful interactions with complex tool capabilities and maintaining on-device feasibility. We break this trade-off with a framework for context-efficient on-device agents, driven by three synergistic optimizations (1) a dynamic memory system using specialized LoRA adapters to distill conversational history into a compressed, and structured Context State Object; (2) a minimalist serialization format for tool schemas to minimize token overhead per tool; and (3) a just-in-time schema-passing mechanism that loads full tool definitions only upon tool selection. We instantiate this framework by adapting a 3B parameter SLM to context-efficient trajectories and rigorously evaluate it against a conventional baseline on complex user tasks. Our agent matches, or exceeds, the performance of a conventional baseline while dramatically compressing context, achieving more than a 6-fold reduction in initial system prompt context and a 10- to 25-fold reduction in context growth rate based on the interaction verbosity, demonstrating that strategic context management is key to unlocking capable and persistent on-device AI.
Abstract（参考訳）: オンデバイスAIエージェントは、パーソナライズされた低レイテンシのアシストを提供するが、そのデプロイメントは基本的に、使用可能なコンテキストを制限するメモリ容量の制限によって制限される。この実用的なコンテキストウィンドウの削減は、複雑なツール機能とのリッチでステートフルなインタラクションをサポートし、デバイス上の実現可能性を維持するためのトレードオフを生み出します。 3つの相乗最適化によって駆動される、コンテキスト効率の高いオンデバイスエージェントのためのフレームワークとのトレードオフを断ち切る。(1)特殊なLoRAアダプタを使用して会話履歴を圧縮し構造化されたコンテキスト状態オブジェクトに蒸留する動的メモリシステム、(2)ツールスキーマのための最小限のシリアライズフォーマットでツール毎のトークンオーバーヘッドを最小限に抑えるためのツールスキーマ、(3)ツール選択時にのみツール定義を完全にロードするジャストインタイムスキーマパス機構。我々は,3BパラメータSLMを文脈効率のよい軌道に適応させ,複雑なユーザタスクのベースラインに対して厳格に評価することで,このフレームワークをインスタンス化する。我々のエージェントは、コンテキストを劇的に圧縮しながら従来のベースラインのパフォーマンスと一致し、初期システムのプロンプトコンテキストを6倍に減らし、インタラクションの冗長性に基づいてコンテキスト成長率を10倍から25倍に減らし、戦略的コンテキスト管理がデバイス上のAIをアンロックする鍵であることを実証する。

関連論文リスト

ToolSelf: Unifying Task Execution and Self-Reconfiguration via Tool-Driven Intrinsic Adaptation [60.25542764389203]
LLM(Large Language Models)を利用したエージェントシステムは、複雑で長期のタスクに対処する上で、顕著な可能性を示している。既存のアプローチでは、手動のオーケストレーションやランタイムベースのパッチを頼りにしており、一般化の貧弱さと最適化の断片化に悩まされることが多い。ツール駆動の自己修正を可能にする新しいパラダイムであるToolSelfを提案する。
論文参考訳（メタデータ） (2026-02-08T09:27:18Z)
Jenius Agent: Towards Experience-Driven Accuracy Optimization in Real-World Scenarios [0.9069311779417014]
本稿では,実体験に基づくエージェントフレームワークを提案する。 Jenius-Agentという名前のエンドツーエンドフレームワークは、3つの重要な最適化と統合されている。実験によると、タスクの精度が20%向上し、トークンコストが削減され、レスポンスレイテンシが低下し、起動障害が発生している。
論文参考訳（メタデータ） (2026-01-05T07:35:12Z)
Context as a Tool: Context Management for Long-Horizon SWE-Agents [38.950807465620365]
我々は,エージェントの意思決定プロセスに統合された呼び出し可能なツールにコンテキストメンテナンスを高める新しいコンテキスト管理パラダイムであるCATを提案する。 CATは、安定なタスクセマンティクス、凝縮した長期記憶、高忠実な短期相互作用からなる構造化されたコンテキストワークスペースを形式化する。我々は,SWE圧縮機が57.6%の解率に達し,ReActベースのエージェントと静的圧縮ベースラインを著しく上回っていることを示す。
論文参考訳（メタデータ） (2025-12-26T17:15:47Z)
Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。 BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文参考訳（メタデータ） (2025-12-20T12:06:13Z)
Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks [0.0]
RP-ReActは,低レベルの実行から戦略的計画を切り離して信頼性と効率を向上する,新しいマルチエージェントアプローチである。 RP-ReActは、各サブステップを計画するReasoner Planner Agent(RPA)と、サブステップを具体的なツールインタラクションに変換する1つまたは複数のProxy-Execution Agent(PEA)から構成される。 RP-ReActを6つのオープンウェイト推論モデルの多種多様なセットを用いて、挑戦的なマルチドメインツールQAベンチマークで評価する。
論文参考訳（メタデータ） (2025-12-03T08:28:40Z)
Z-Space: A Multi-Agent Tool Orchestration Framework for Enterprise-Grade LLM Automation [3.518072776386001]
本稿では,データ生成指向型マルチエージェント協調ツール実行フレームワークZ-Spaceを提案する。このフレームワークはElemeプラットフォームの技術部門にデプロイされており、大規模なテストデータ生成シナリオを提供している。生産データは、ツール推論における平均トークン消費を96.26%削減していることを示している。
論文参考訳（メタデータ） (2025-11-23T03:59:14Z)
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文参考訳（メタデータ） (2025-09-01T01:45:18Z)
RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文参考訳（メタデータ） (2025-08-06T21:59:34Z)
AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation [32.46570968627392]
低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を実証している。意味駆動型LoRA検索と動的アグリゲーションを可能にする新しいフレームワークを提案する。提案手法は画像生成のパーフェマンスを大幅に改善する。
論文参考訳（メタデータ） (2025-08-04T06:36:00Z)
ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。 12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文参考訳（メタデータ） (2025-06-02T04:23:21Z)
Autonomous Deep Agent [0.7489814067742621]
Deep Agentは、複雑なマルチフェーズタスクを管理するために設計された高度な自律AIシステムである。システムの基盤は階層型タスクDAGフレームワーク上に構築されています。 Deep Agentは、自己管理型AIシステムにおいて、新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-02-10T21:46:54Z)
Autonomous Structural Memory Manipulation for Large Language Models Using Hierarchical Embedding Augmentation [0.0]
本研究では,マルチレベルセマンティック構造を通じてトークンの表現を再定義する手段として,階層的な埋め込み拡張を導入する。その結果、より長い入力シーケンスに対して処理オーバーヘッドが大幅に削減され、計算効率が大幅に向上した。トークン表現とメモリ構成を動的に調整する能力は、様々な予測不可能な入力条件下でモデルの堅牢性に寄与した。
論文参考訳（メタデータ） (2025-01-23T22:20:36Z)
Asynchronous Tool Usage for Real-Time Agents [61.3041983544042]
並列処理とリアルタイムツール利用が可能な非同期AIエージェントを導入する。私たちの重要な貢献は、エージェントの実行とプロンプトのためのイベント駆動有限状態マシンアーキテクチャです。この研究は、流体とマルチタスクの相互作用が可能なAIエージェントを作成するための概念的なフレームワークと実践的なツールの両方を提示している。
論文参考訳（メタデータ） (2024-10-28T23:57:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。