論文の概要: Good to Go: The LOOP Skill Engine That Hits 99% Success and Slashes Token Usage by 99% via One-Shot Recording and Deterministic Replay
- arxiv url: http://arxiv.org/abs/2605.14237v1
- Date: Thu, 14 May 2026 01:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.561507
- Title: Good to Go: The LOOP Skill Engine That Hits 99% Success and Slashes Token Usage by 99% via One-Shot Recording and Deterministic Replay
- Title(参考訳): LOOPのスキルエンジン「Go to Go」、成功率99%、トーケン使用率99%を1ショット記録と決定論的リプレイで削減
- Authors: Xiaohua Wang, Kai Yu, XuXiao Liang, Liang Wang, Chao Han,
- Abstract要約: 99%の成功率と99%のトークン削減を実現するシステムである LOOP SKILL ENGINE を提案する。
決定論的実行計画は、時間依存変数と結果依存変数をパラメータ化しながら、タスクの機能的意図をキャプチャする。
周期的エージェントタスクのベンチマークが5分から24時間に及ぶ間、Loop Skill Engineは毎月のトークン消費を93.3%--99.98%削減し、実行遅延を8.7倍削減し、出力非決定性を排除している。
- 参考スコア(独自算出の注目度): 14.181844060152367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying AI agents for repetitive periodic tasks exposes a critical tension: Large Language Models (LLMs) offer unmatched flexibility in tool orchestration, yet their inherent stochasticity causes unpredictable failures, and repeated invocations incur prohibitive token costs. We present the LOOP SKILL ENGINE, a system that achieves a combined 99% success rate and 99% token reduction for periodic agent tasks through a one-shot recording, deterministic replay paradigm. On its first run, the agent executes the task with full LLM reasoning while the system transparently intercepts and records the complete tool-call trajectory. A greedy length-descending template extraction algorithm then converts this recording into a parameterized, branch-free Loop Skill -- a deterministic execution plan that captures the task's functional intent while parameterizing time-dependent and result-dependent variables. All subsequent executions bypass the LLM entirely: the engine resolves template variables against real-time values and replays the tool sequence deterministically. We prove two theorems: (1) Replay Determinism -- the step sequence of a validated Loop Skill is invariant across all future executions; (2) Write Safety -- concurrent access to persistent configuration is serialized through reentrant locks and atomic file replacement. Across a benchmark of periodic agent tasks spanning intervals from 5 minutes to 24 hours, the Loop Skill Engine reduces monthly token consumption by 93.3%--99.98% and cuts execution latency by 8.7x while eliminating output non-determinism. A multi-layer degradation strategy guarantees that tasks never stall. We release the engine as part of the buddyMe open-source agent framework.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ツールオーケストレーションにおいて整合性のない柔軟性を提供するが、その固有の確率性は予測不可能な失敗を引き起こす。
LOOP SKILL ENGINEは,1ショット記録決定論的リプレイパラダイムを用いて,周期的エージェントタスクの99%の成功率と99%のトークン削減を実現するシステムである。
最初の実行時に、エージェントは完全なLCM推論でタスクを実行し、システムは透過的にツール呼び出し軌跡をインターセプトし、記録する。
そして、このレコードをパラメータ化された分岐なしのループスキルに変換する。これは、時間依存変数と結果依存変数をパラメータ化しながら、タスクの機能的意図をキャプチャする決定論的実行計画である。
エンジンはテンプレート変数をリアルタイム値に対して解決し、ツールシーケンスを決定論的に再生する。
1) Replay Determinism -- 検証済みのループスキルのステップシーケンスは、すべての将来の実行で不変である。 (2)Write Safety -- 永続的な構成への同時アクセスは、再試行ロックとアトミックファイル置換によってシリアライズされる。
周期的エージェントタスクのベンチマークが5分から24時間に及ぶ間、Loop Skill Engineは毎月のトークン消費を93.3%--99.98%削減し、実行遅延を8.7倍削減し、出力非決定性を排除している。
多層劣化戦略は、タスクが停止しないことを保証する。
buddyMeオープンソースエージェントフレームワークの一部として、エンジンをリリースしています。
関連論文リスト
- OTora: A Unified Red Teaming Framework for Reasoning-Level Denial-of-Service in LLM Agents [21.836018755837085]
OToraは、Reasoning-Level Denial-of-Service攻撃をインスタンス化するフレームワークである。
OToraはICL誘導遺伝子探索によってエージェント認識推論ペイロードを生成する。
トークンの推論とマグニチュードの遅延の遅延ダウンで最大10倍増加する。
論文 参考訳(メタデータ) (2026-05-09T10:55:11Z) - SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters [13.891522069967507]
本稿では,複合AIワークロードのプログラムレベルスケジューリングへのシフトを提案する。
本稿では,この抽象化を実現する分散スケジューラSAGAを提案する。
論文 参考訳(メタデータ) (2026-05-01T09:05:28Z) - Scaling Test-Time Compute for Agentic Coding [126.72747643609274]
本稿では,ロールアウト軌跡のコンパクトな表現に基づくエージェントコーディングのためのテスト時間スケーリングフレームワークを提案する。
当社のフレームワークは,各ロールアウトを,その健全な仮説,進捗,障害モードを保存する構造的な要約に変換する。
提案手法は,SWE-Bench Verified および Terminal-Bench v2.0 におけるフロンティア符号化エージェントの性能を一貫して改善する。
論文 参考訳(メタデータ) (2026-04-16T17:39:33Z) - From Agent Loops to Structured Graphs:A Scheduler-Theoretic Framework for LLM Agent Execution [1.8222732878503212]
LLMベースのエージェントを構築するための主要なパラダイムはエージェントループ(Agent Loop)である。
この観点では、エージェントループとグラフベースの実行エンジンを単一のセマンティック連続体に配置する。
暗黙の文脈から暗黙の静的DAGへ制御フローを上昇させるSGHを提案する。
論文 参考訳(メタデータ) (2026-04-13T12:16:45Z) - KAIJU: An Executive Kernel for Intent-Gated Execution of LLM Agents [5.931389072124715]
ReActを使用した大規模言語モデルに基づくツールコール自律エージェントには3つの制限がある。
最近の作業は、計画と実行を分離する方向に進んでいるが、各ケースモデルでは、実行メカニズムと結合され続けている。
LLMエージェントのシステムレベルの抽象化を導入し,実行エージェントを推論層から分離する。
論文 参考訳(メタデータ) (2026-03-31T21:38:28Z) - SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning [104.01865949020304]
エージェント・マルチモーダル・大規模言語モデル(MLLM)は,反復的な視覚的ツールの実行によって顕著な推論能力を達成する。
しかし、カスケード認識、推論、ツール呼び出しループは、重要なシーケンシャルなオーバーヘッドをもたらす。
このオーバーヘッドはエージェントディープと呼ばれ、禁止されたレイテンシを発生させ、システムレベルのスループットを著しく制限します。
本稿では,エージェントレベルの投機的アクセラレーションフレームワークであるSpecEyesを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:45:47Z) - StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating [8.031311182554981]
長距離ロボット操作は、高レベルの計画と低レベルの制御のギャップを埋める必要がある。
現在のVision-Language-Actionモデルは、しばしばこれらのプロセスを絡めて、各ステップで冗長なマルチモーダル推論を実行する。
本稿では、テキストタスクの分解、視覚目標の想像力、連続的なアクション生成を単一のパラメータ効率のバックボーン内で統合するデュアルシステムアーキテクチャStreamVLAを提案する。
論文 参考訳(メタデータ) (2026-02-01T08:51:17Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。
本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文 参考訳(メタデータ) (2024-05-13T14:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。