論文の概要: Dynamic Speculative Agent Planning
- arxiv url: http://arxiv.org/abs/2509.01920v2
- Date: Fri, 05 Sep 2025 04:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 12:28:42.56983
- Title: Dynamic Speculative Agent Planning
- Title(参考訳): 動的投機エージェント計画
- Authors: Yilin Guan, Wenyue Hua, Qingfeng Lan, Sun Fei, Dujian Ding, Devang Acharya, Chi Wang, William Yang Wang,
- Abstract要約: 大規模な言語モデルベースのエージェントは、遅延の禁止と推論コストのために、重要なデプロイメント課題に直面している。
本稿では,オンライン強化学習フレームワークである動的投機計画(Dynamic Speculative Planning, DSP)を紹介する。
2つの標準エージェントベンチマークの実験では、DSPは高速加速法に匹敵する効率を達成し、総コストを30%削減し、不要コストを60%まで削減している。
- 参考スコア(独自算出の注目度): 57.63021893399452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their remarkable success in complex tasks propelling widespread adoption, large language-model-based agents still face critical deployment challenges due to prohibitive latency and inference costs. While recent work has explored various methods to accelerate inference, existing approaches suffer from significant limitations: they either fail to preserve performance fidelity, require extensive offline training of router modules, or incur excessive operational costs. Moreover, they provide minimal user control over the tradeoff between acceleration and other performance metrics. To address these gaps, we introduce Dynamic Speculative Planning (DSP), an asynchronous online reinforcement learning framework that provides lossless acceleration with substantially reduced costs without requiring additional pre-deployment preparation. DSP explicitly optimizes a joint objective balancing end-to-end latency against dollar cost, allowing practitioners to adjust a single parameter that steers the system toward faster responses, cheaper operation, or any point along this continuum. Experiments on two standard agent benchmarks demonstrate that DSP achieves comparable efficiency to the fastest lossless acceleration method while reducing total cost by 30% and unnecessary cost up to 60%. Our code and data are available through https://github.com/guanyilin428/Dynamic-Speculative-Planning.
- Abstract(参考訳): 大規模な言語モデルベースのエージェントは、複雑なタスクで顕著に成功しているにもかかわらず、禁止されたレイテンシと推論コストのために、依然として重要なデプロイメント課題に直面している。
最近の研究では、推論を加速する様々な方法が検討されているが、既存のアプローチではパフォーマンスの忠実さの維持に失敗したり、ルータモジュールの広範囲なオフライントレーニングが必要であったり、過剰な運用コストが発生するなど、大きな制限が課されている。
さらに、アクセラレーションと他のパフォーマンスメトリクス間のトレードオフに対して、最小限のユーザコントロールを提供する。
このようなギャップに対処するため,我々は動的投機計画(Dynamic Speculative Planning, DSP)を紹介した。
DSPは、エンド・ツー・エンドのレイテンシとドル・コストのバランスをとる共同目的を明示的に最適化し、実践者は、より高速なレスポンス、より安価な操作、あるいはこの継続点に沿った任意のポイントに向けて、システムを操る単一のパラメータを調整できる。
2つの標準エージェントベンチマークの実験では、DSPは損失の少ない加速法に匹敵する効率を達成し、総コストを30%削減し、不要コストを60%まで削減している。
私たちのコードとデータはhttps://github.com/guanyilin428/Dynamic-Speculative-Planning.orgから入手可能です。
関連論文リスト
- Cost-Aware Contrastive Routing for LLMs [56.94921736486255]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - A Policy-Improved Deep Deterministic Policy Gradient Framework for the Discount Order Acceptance Strategy of Ride-hailing Drivers [7.172675922077926]
サードパーティのディスカウント・エクスプレスは、低料金で急行運転手が配達する。
本研究では,個々のプラットフォームの観点から,ドライバーのディスカウント・エクスプレスの受け入れを動的に管理することを目的とする。
政策改善型深層決定主義政策勾配(pi-DDPG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-16T03:24:54Z) - Adaptive Orchestration for Large-Scale Inference on Heterogeneous Accelerator Systems Balancing Cost, Performance, and Resilience [0.46040036610482665]
本稿では,異種アクセラレータ間で要求を適応的に割り当てるハードウェア非依存制御ループを提案する。
このフレームワークは、レイテンシの目標を一貫して満たし、キャパシティの不足時にトラフィックを自動的にリダイレクトし、低コストのアクセラレータを収益化する。
論文 参考訳(メタデータ) (2025-03-25T21:20:11Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference
Serving Systems [0.0]
InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。
SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
論文 参考訳(メタデータ) (2023-04-21T11:19:49Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。