論文の概要: Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes
- arxiv url: http://arxiv.org/abs/2604.28138v1
- Date: Thu, 30 Apr 2026 17:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.222907
- Title: Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes
- Title(参考訳): Crab:エージェントサンドボックスのセマンティックス対応チェックポイント/リストアランタイム
- Authors: Tianyuan Wu, Chaokun Chang, Lunxi Cao, Wei Gao, Wei Wang,
- Abstract要約: 75%以上のエージェントがリカバリ関連状態を発生しないため、ほとんどのチェックポイントは不要である。
Checkpoint-and-Restore for Agent SandBoxesは、エージェントやC/Rバックエンドを変更することなく、このギャップをブリッジする透過的なホストサイドランタイムである。
シェル集約型およびコード修正ワークロードでは、Crabはリカバリの正しさを8%(チャットのみ)から100%に引き上げ、チェックポイントトラフィックを最大87%削減し、フォールトフリー実行時間の1.9%以内に留まる。
- 参考スコア(独自算出の注目度): 7.156242393967948
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous agents act through sandboxed containers and microVMs whose state spans filesystems, processes, and runtime artifacts. Checkpoint and restore (C/R) of this state is needed for fault tolerance, spot execution, RL rollout branching, and safe rollback-yet existing approaches fall into two extremes: application-level recovery preserves chat history but misses OS-side effects, while full per-turn checkpointing is correct but too expensive under dense co-location. The root cause is an agent-OS semantic gap: agent frameworks see tool calls but not their OS effects; the OS sees state changes but lacks turn-level context to judge recovery relevance. This gap hides massive sparsity: over 75% of agent turns produce no recovery-relevant state, so most checkpoints are unnecessary. Crab (Checkpoint-and-Restore for Agent SandBoxes) is a transparent host-side runtime that bridges this gap without modifying agents or C/R backends. An eBPF-based inspector classifies each turn's OS-visible effects to decide checkpoint granularity; a coordinator aligns checkpoints with turn boundaries and overlaps C/R with LLM wait time; and a host-scoped engine schedules checkpoint traffic across co-located sandboxes. On shell-intensive and code-repair workloads, Crab raises recovery correctness from 8% (chat-only) to 100%, cuts checkpoint traffic by up to 87%, and stays within 1.9% of fault-free execution time.
- Abstract(参考訳): 自動エージェントは、サンドボックス化されたコンテナと、状態がファイルシステム、プロセス、実行時アーティファクトにまたがるマイクロVMを介して動作する。
この状態のチェックポイントとリストア(C/R)は、フォールトトレランス、スポット実行、RLロールアウトブランチ、および安全なロールバック-yet既存のアプローチでは、2つの極端に該当する:アプリケーションレベルのリカバリはチャット履歴を保存するが、OS側のエフェクトを見逃す。
エージェントフレームワークはツールコールを見るが、OSの影響はない。OSは状態変更を見るが、リカバリの妥当性を判断するためのターンレベルのコンテキストは欠如している。
エージェントターンの75%以上は回復関連状態を発生しないため、ほとんどのチェックポイントは不要である。
Crab(エージェントサンドボックスのためのCheckpoint-and-Restore)は、エージェントやC/Rバックエンドを変更することなく、このギャップをブリッジする透過的なホストサイドランタイムである。
eBPFベースのインスペクタは、各ターンのOS可視効果を分類してチェックポイントの粒度を決定する;コーディネータは、チェックポイントをターン境界に整列し、C/RとLLM待ち時間に重なる;ホストスコープエンジンは、同一位置のサンドボックスにまたがるチェックポイントトラフィックをスケジュールする。
シェル集約型およびコード修正ワークロードでは、Crabはリカバリの正しさを8%(チャットのみ)から100%に引き上げ、チェックポイントトラフィックを最大87%削減し、フォールトフリー実行時間の1.9%以内に留まる。
関連論文リスト
- ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.73176261673471]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - Synthesizing Multi-Agent Harnesses for Vulnerability Discovery [8.518689779459974]
LLMエージェントは、人間の監査官や自動ファジッターが何十年も見逃していた、真のセキュリティ脆弱性を見つけ始めている。
実際には、作業は複数のエージェントに分割され、ハーネスによってワイヤリングされる。どの役割が存在するかを修正するプログラム、どのように情報を渡すか、どのツールを呼び出すか、リトライがどのように調整されるかである。
AgentFlowは、エージェントの役割、プロンプト、ツール、通信トポロジ、調整プロトコルを共同でカバーする型付きグラフDSLで、両方の制限に対処する。
論文 参考訳(メタデータ) (2026-04-22T17:27:40Z) - AgentForge: Execution-Grounded Multi-Agent LLM Framework for Autonomous Software Engineering [3.2126925586839623]
第一級原理として実行基盤検証を導入する。
我々はこの原理をマルチエージェントフレームワークである AgentFORGE でインスタンス化する。
AgentFORGEtokenはSWE-BENCH Lite上で40.0%の解像度を達成する。
論文 参考訳(メタデータ) (2026-04-13T13:51:13Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents [18.383906296536185]
Traversal-as-Policy: サンドボックス化されたOpenHandsの実行ログを単一の実行可能なGated Behavior Tree (GBT)に蒸留する
各ノードは状態条件のアクションマクロを符号化し、成功した軌道からマージチェックを行う。
実行時に、軽量なトラバーサは、子マクロに対するベースモデルの意図と一致します。
論文 参考訳(メタデータ) (2026-01-30T16:25:08Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。