論文の概要: IdleSpec: Exploiting Idle Time via Speculative Planning for LLM Agents
- arxiv url: http://arxiv.org/abs/2605.22154v1
- Date: Thu, 21 May 2026 08:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.16195
- Title: IdleSpec: Exploiting Idle Time via Speculative Planning for LLM Agents
- Title(参考訳): IdleSpec: LLMエージェントの投機計画によるアイドルタイムの爆発
- Authors: Daewon Choi, Kyunghyun Park, Woomin Song, Saket Dingliwal, Sai Muralidhar Jayanthi, Jinwoo Shin, Aram Galstyan,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、反復的なツールコールと環境相互作用で多段階推論を活用することで複雑なタスクを解決する。
ほとんどのエージェントシナリオではアイドル時間が流行しているが、既存の作業では避けられないオーバーヘッドとして扱っている。
IdleSpecは、アイドル時間計算を利用してエージェントのパフォーマンスを向上させる、スケーラブルで汎用的な推論手法である。
- 参考スコア(独自算出の注目度): 56.77101184011525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based agents solve complex tasks by leveraging multi-step reasoning with iterative tool calls and environment interactions, which incur idle time while waiting for observations. Despite the prevalence of idle time in most agentic scenarios, existing works treat it as an unavoidable overhead or propose restricted solutions that overlook varying computational budgets across different tool calls and future observation uncertainty, thereby leading to suboptimal utilization of idle time. In this paper, we introduce IdleSpec, a scalable and generic inference approach that leverages idle-time computation to improve agent performance while minimizing latency overhead. Specifically, IdleSpec iteratively generates plan candidates during idle periods and, once observations become available, aggregates them to guide the next reasoning step. For effective plan generation under observation uncertainty, IdleSpec samples between complementary drafting strategies (i.e., progressive and recovery) from a learned distribution that is updated via posterior feedback. Our experiments demonstrate that IdleSpec significantly improves agent performance in various agentic scenarios by effectively utilizing idle time. In particular, on the GAIA and FRAMES, IdleSpec achieves 55.6% average accuracy with Gemini-2.5-Flash, surpassing the vanilla baseline without idle-time usage by 5.1%. Furthermore, for MLE-Bench, which involves substantial delay from code executions, IdleSpec achieves performance gains of up to 9.1% on the Any Medal rate, highlighting its generalizability to long-horizon tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、反復的ツールコールと環境相互作用による多段階推論を利用して複雑なタスクを解く。
多くのエージェントシナリオにおいてアイドル時間が流行しているにもかかわらず、既存の研究は避けられないオーバーヘッドとして扱うか、異なるツールコールの様々な計算予算と将来の観察の不確実性を見極める制限された解決策を提案し、アイドル時間の最適利用につながる。
本稿では、アイドル時間計算を利用して遅延オーバーヘッドを最小限に抑えながらエージェント性能を向上させる、スケーラブルで汎用的な推論手法であるIdleSpecを紹介する。
具体的には、IdleSpecはアイドル期間中に計画候補を反復的に生成します。
観測不確実性下での効果的な計画生成のために、IdleSpecは、後続フィードバックによって更新された学習分布からの相補的起草戦略(プログレッシブおよびリカバリ)のサンプルをサンプリングする。
実験により,IdleSpecはアイドルタイムを有効活用することにより,エージェントシナリオにおけるエージェント性能を著しく向上することが示された。
特にGAIAとFRAMESでは、IdleSpecはGemini-2.5-Flashで平均55.6%の精度を達成し、アイドル時間を使用しないバニラベースラインを5.1%上回っている。
さらに、コード実行からかなり遅れるMLE-Benchでは、IdleSpecはAny Medalレートで最大9.1%のパフォーマンス向上を実現し、長距離タスクへの一般化性を強調している。
関連論文リスト
- SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning [104.01865949020304]
エージェント・マルチモーダル・大規模言語モデル(MLLM)は,反復的な視覚的ツールの実行によって顕著な推論能力を達成する。
しかし、カスケード認識、推論、ツール呼び出しループは、重要なシーケンシャルなオーバーヘッドをもたらす。
このオーバーヘッドはエージェントディープと呼ばれ、禁止されたレイテンシを発生させ、システムレベルのスループットを著しく制限します。
本稿では,エージェントレベルの投機的アクセラレーションフレームワークであるSpecEyesを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:45:47Z) - Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs [62.17306142810532]
ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。
Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
論文 参考訳(メタデータ) (2026-03-23T17:01:42Z) - Task-oriented Learnable Diffusion Timesteps for Universal Few-shot Learning of Dense Tasks [48.86985692711283]
現在の拡散モデルに基づくアプリケーションは、マルチステップ前方のマルコフ過程から学習された視覚表現のパワーを単一タスク予測タスクに利用している。
本稿では,タスク認識型タイムステップ選択(TTS)と,その選択したタイムステップ機能を統合するTFC(Timestep Feature Consolidation)の2つのモジュールを提案する。
本フレームワークは,少数のサポートクエリのみを考慮すれば,高密度な予測性能を効果的に実現している。
論文 参考訳(メタデータ) (2025-12-29T05:19:01Z) - Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design [35.95362310928356]
LLMベースの検索エージェントは、高いパフォーマンスを実現するが、深刻なレイテンシーに悩まされる。
我々は憶測のレンズを通してこのボトルネックを再考する。
SPAgentは,検索エージェントにおける投機の役割を拡大し,レイテンシを低減するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-11-25T08:15:17Z) - Stop Wasting Your Tokens: Towards Efficient Runtime Multi-Agent Systems [11.42175340352007]
SupervisorAgentは、ランタイムと適応的な監視のための軽量でモジュール化されたフレームワークです。
SupervisorAgentは、エラーを積極的に修正し、非効率な振る舞いを誘導し、観察を浄化するために、臨界点に介入する。
挑戦的なGAIAベンチマークでは、SupervisorAgentは成功率を損なうことなく、Smolagentフレームワークのトークン消費を平均29.45%削減した。
論文 参考訳(メタデータ) (2025-10-30T15:12:59Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。