論文の概要: B-PASTE: Beam-Aware Pattern-Guided Speculative Execution for Resource-Constrained LLM Agents
- arxiv url: http://arxiv.org/abs/2604.16469v1
- Date: Thu, 09 Apr 2026 07:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.024611
- Title: B-PASTE: Beam-Aware Pattern-Guided Speculative Execution for Resource-Constrained LLM Agents
- Title(参考訳): B-PASTE:資源制約LDM剤のビーム対応パターン誘導投機試験
- Authors: Yanfei Song,
- Abstract要約: LLMエージェントはインターリーブされた推論とアクションのループで実行され、将来のツールコールは現在の推論ステップが完了するまで起動できない。
B-PASTEは、単一のツールからの推測を、厳密なリソース制約の下で局所的な分岐仮説に引き上げるビーム対応拡張である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents execute in an interleaved reasoning-and-action loop, where future tool calls cannot be launched until the current reasoning step completes. This serial dependency inflates end-to-end latency and leaves the model idle while waiting for tool execution. Prior work, Pattern-Aware Speculative Tool Execution (PASTE), mitigates this bottleneck by speculating likely future tool invocations from mined control-flow and data-flow regularities. However, PASTE is tool-centric and speculates only individual invocations rather than bounded future branches. We propose B-PASTE, a beam-aware extension that lifts speculation from single tools to local branch hypotheses under strict resource constraints. B-PASTE maintains a bounded beam of future execution subgraphs, ranks them by expected critical-path reduction rather than raw execution probability, and schedules only high-value branch prefixes on transient slack resources. It explicitly models co-run interference, downstream unlock value, and state-safety constraints, enabling the system to prioritize serial fast-path execution when early completion unlocks valuable future work, while still exploiting safe parallelism under low contention. This design is especially important for edge-side deployments, where speculative work must not steal scarce resources from latency-critical authoritative execution. Preliminary internal testing on Thor-class edge environments shows up to 1.4X end-to-end speedup, suggesting that branch-aware speculative execution remains effective even under tight resource budgets.
- Abstract(参考訳): LLMエージェントはインターリーブされた推論とアクションのループで実行され、将来のツールコールは現在の推論ステップが完了するまで起動できない。
このシリアル依存関係は、エンドツーエンドのレイテンシを膨らませ、ツールの実行を待っている間にモデルのアイドルを残します。
以前の作業であるPattern-Aware Speculative Tool Execution (PASTE)は、マイニングされたコントロールフローとデータフローの規則性から将来的なツール呼び出しを推測することによって、このボトルネックを軽減する。
しかしながら、PASTEはツール中心であり、将来のブランチの境界よりも個々の呼び出しのみを推測する。
B-PASTEは、単一のツールからの推測を、厳密なリソース制約の下で局所的な分岐仮説に引き上げるビーム対応拡張である。
B-PASTEは、将来の実行サブグラフの有界ビームを保持し、生の実行確率よりも期待されるクリティカルパス削減によってランク付けし、過渡スラックリソース上の高値分岐プレフィックスのみをスケジュールする。
これは、コラン干渉、ダウンストリームアンロック値、ステートセーフな制約を明示的にモデル化し、初期完了が価値ある将来の作業のロックを解除するときにシリアルな高速パス実行を優先できると同時に、競合の少ない安全な並列性を利用することができる。
この設計は特にエッジ側のデプロイメントにおいて重要であり、投機的な作業は遅延クリティカルな信頼できる実行から不足するリソースを盗むべきではない。
ソークラスのエッジ環境における予備的な内部テストは、最大1.4倍のエンドツーエンドのスピードアップを示し、厳格なリソース予算の下でも、ブランチ対応の投機的実行が有効であることを示唆している。
関連論文リスト
- OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation [55.56490813640669]
VLAモデルは典型的には現在のフレームにのみ作用するが、将来の予測とオブジェクト認識推論は別々の潜在空間でしばしば学習される。
本稿では,時間的フォアシークエンスとオブジェクト認識推論を共通化することで,制約に対処するフレームワークOFlowを提案する。
提案手法は, 時間的フローマッチングを用いて将来の潜伏者を予測し, 物理的に関係のある手がかりを強調するオブジェクト認識表現に分解する。
論文 参考訳(メタデータ) (2026-04-20T06:38:01Z) - SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning [104.01865949020304]
エージェント・マルチモーダル・大規模言語モデル(MLLM)は,反復的な視覚的ツールの実行によって顕著な推論能力を達成する。
しかし、カスケード認識、推論、ツール呼び出しループは、重要なシーケンシャルなオーバーヘッドをもたらす。
このオーバーヘッドはエージェントディープと呼ばれ、禁止されたレイテンシを発生させ、システムレベルのスループットを著しく制限します。
本稿では,エージェントレベルの投機的アクセラレーションフレームワークであるSpecEyesを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:45:47Z) - Act While Thinking: Accelerating LLM Agents via Pattern-Aware Speculative Tool Execution [18.50317396128381]
PASTEは、推測によってツールの遅延を隠すように設計されたPattern-Aware Speculative Tool Executionメソッドである。
PASTEは平均タスク完了時間を48.5%削減し、ツールの実行スループットを1.8倍改善する。
論文 参考訳(メタデータ) (2026-03-19T13:36:50Z) - Anticipatory Planning for Multimodal AI Agents [77.62643381558613]
予測推論を明示的に訓練する2段階強化学習フレームワークであるTraceR1を紹介する。
TraceR1は、オンラインコンピュータ使用、オフラインコンピュータ使用ベンチマーク、マルチモーダルツール使用推論タスクを含む、7つのベンチマークで評価されている。
以上の結果から,予測軌道推論は,複雑な実環境において効果的に推論,計画,行動が可能なマルチモーダルエージェント構築の鍵となる原理であることが示唆された。
論文 参考訳(メタデータ) (2026-03-17T16:55:11Z) - AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification [25.817251923574286]
大規模言語モデル(LLM)エージェントのための新しい推論時間検出・緩和フレームワークを提案する。
AgentSentryは、時間的因果的テイクオーバーとしてマルチターンIPIをモデル化する最初の推論時防御である。
我々は, textscAgentDojo ベンチマークにおいて, 4つのタスクスイート, 3つの IPI 攻撃ファミリー, 複数のブラックボックス LLM に対する AgentSentry の評価を行った。
論文 参考訳(メタデータ) (2026-02-26T07:59:10Z) - Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows [3.1978093202244704]
Atomixは、エージェントツールコールのためのプログレスアウェアなトランザクションセマンティクスを提供するランタイムである。
Atomixは各コールをエポックでタグ付けし、リソースごとのフロンティアを追跡し、進捗予測が安全性を示す場合にのみコミットする。
論文 参考訳(メタデータ) (2026-02-16T15:46:19Z) - ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design [35.95362310928356]
LLMベースの検索エージェントは、高いパフォーマンスを実現するが、深刻なレイテンシーに悩まされる。
我々は憶測のレンズを通してこのボトルネックを再考する。
SPAgentは,検索エージェントにおける投機の役割を拡大し,レイテンシを低減するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-11-25T08:15:17Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。