論文の概要: Speculative Actions: A Lossless Framework for Faster Agentic Systems
- arxiv url: http://arxiv.org/abs/2510.04371v1
- Date: Sun, 05 Oct 2025 21:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.610265
- Title: Speculative Actions: A Lossless Framework for Faster Agentic Systems
- Title(参考訳): Speculative Actions: より高速なエージェントシステムのためのロスレスフレームワーク
- Authors: Naimeng Ye, Arnav Ahuja, Georgios Liargkovas, Yunan Lu, Kostis Kaffes, Tianyi Peng,
- Abstract要約: AIエージェントの実行は遅く、トレーニングや評価、デプロイメントを妨げていることが多い。
マイクロプロセッサにおける投機的実行に着想を得て,より高速なモデルを用いて潜在的行動を予測するフレームワークを提案する。
我々は,このフレームワークを3つのエージェント環境 – ゲーム,eコマース,Web検索,オペレーティングシステム環境のための"ロッキー"拡張 – で評価する。
- 参考スコア(独自算出の注目度): 6.708126506152481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite growing interest in AI agents across industry and academia, their execution in an environment is often slow, hampering training, evaluation, and deployment. For example, a game of chess between two state-of-the-art agents may take hours. A critical bottleneck is that agent behavior unfolds sequentially: each action requires an API call, and these calls can be time-consuming. Inspired by speculative execution in microprocessors and speculative decoding in LLM inference, we propose speculative actions, a lossless framework for general agentic systems that predicts likely actions using faster models, enabling multiple steps to be executed in parallel. We evaluate this framework across three agentic environments: gaming, e-commerce, web search, and a "lossy" extension for an operating systems environment. In all cases, speculative actions achieve substantial accuracy in next-action prediction (up to 55%), translating into significant reductions in end-to-end latency. Moreover, performance can be further improved through stronger guessing models, top-K action prediction, multi-step speculation, and uncertainty-aware optimization, opening a promising path toward deploying low-latency agentic systems in the real world.
- Abstract(参考訳): 業界や学界にまたがるAIエージェントへの関心が高まっているにも関わらず、環境におけるAIエージェントの実行は遅く、トレーニングや評価、デプロイメントを妨げていることが多い。
例えば、2つの最先端エージェント間のチェスの試合には数時間を要することがある。
重要なボトルネックは、エージェントの振る舞いが順次展開することです。それぞれのアクションはAPI呼び出しを必要としており、これらの呼び出しは時間がかかります。
マイクロプロセッサにおける投機的実行とLLM推論における投機的復号化を契機として,より高速なモデルを用いた潜在的動作の予測を行う汎用エージェントシステムのための投機的動作を提案する。
我々は,このフレームワークを3つのエージェント環境 – ゲーム,eコマース,Web検索,オペレーティングシステム環境のための"ロッキー"拡張 – で評価する。
いずれの場合も、投機的行動は次のアクション予測(最大55%)でかなりの精度を達成し、エンドツーエンドのレイテンシを大幅に削減する。
さらに、より強力な推測モデル、トップKアクション予測、マルチステップの推測、不確実性を考慮した最適化により、パフォーマンスをさらに向上させ、現実世界に低遅延エージェントシステムを展開するための有望な道を開くことができる。
関連論文リスト
- Benchmark Test-Time Scaling of General LLM Agents [27.756239376314294]
General AgentBenchは、検索、コーディング、推論、ツール使用ドメインにわたる一般的なLLMエージェントを評価するためのベンチマークである。
ドメイン固有評価から一般エージェント設定に移行する際の性能劣化について検討する。
どちらのスケーリングも2つの基本的な制限のため、実行時の効果的なパフォーマンス改善にはならないことが分かりました。
論文 参考訳(メタデータ) (2026-02-22T01:08:02Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - Chameleon: Adaptive Adversarial Agents for Scaling-Based Visual Prompt Injection in Multimodal AI Systems [0.0]
本稿では,VLM(Vision-Language Models)におけるスケーリング脆弱性の公開と活用を目的とした,新しい適応型対向フレームワークを提案する。
実験の結果,Chameleonは様々なスケーリング要因に対して84.5%のアタック成功率(ASR)を達成した。
これらの攻撃はエージェントパイプラインを効果的に侵害し、マルチステップタスクにおいて意思決定精度を45%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-04T15:22:28Z) - Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design [35.95362310928356]
LLMベースの検索エージェントは、高いパフォーマンスを実現するが、深刻なレイテンシーに悩まされる。
我々は憶測のレンズを通してこのボトルネックを再考する。
SPAgentは,検索エージェントにおける投機の役割を拡大し,レイテンシを低減するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-11-25T08:15:17Z) - VeriOS: Query-Driven Proactive Human-Agent-GUI Interaction for Trustworthy OS Agents [39.3943822850841]
We introduced VeriOS-Agent, a trustworthy OS agent training with a two-stage learning paradigm。
VeriOS-Agentは、最先端技術に対する信頼できないシナリオにおいて、平均的なステップワイドの成功率を20.64%改善することを示す。
論文 参考訳(メタデータ) (2025-09-09T09:46:01Z) - Adaptive Reinforcement Learning for Unobservable Random Delays [46.04329493317009]
本稿では,エージェントが観測不能かつ時間変化の遅れを適応的に処理できる汎用フレームワークを提案する。
具体的には、エージェントは予測不可能な遅延とネットワーク越しに送信される失われたアクションパケットの両方を処理するために、将来のアクションのマトリックスを生成する。
提案手法は,幅広いベンチマーク環境において,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-17T11:11:37Z) - Agentic Predictor: Performance Prediction for Agentic Workflows via Multi-View Encoding [56.565200973244146]
Agentic Predictorは、効率的なエージェントワークフロー評価のための軽量な予測器である。
Agentic Predictorはタスク成功率の近似を学ぶことで、最適なエージェントワークフロー構成の迅速かつ正確な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T09:46:50Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - DynaSaur: Large Language Agents Beyond Predefined Actions [126.98162266986554]
既存のLLMエージェントシステムは、通常、各ステップで固定セットと事前定義されたセットからアクションを選択する。
動作を動的に生成・構成できるLLMエージェントフレームワークを提案する。
このフレームワークでは、汎用プログラミング言語で書かれたプログラムを生成し実行することで、エージェントが環境と対話する。
論文 参考訳(メタデータ) (2024-11-04T02:08:59Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。