論文の概要: VIGIL: A Reflective Runtime for Self-Healing Agents
- arxiv url: http://arxiv.org/abs/2512.07094v1
- Date: Mon, 08 Dec 2025 02:18:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.676808
- Title: VIGIL: A Reflective Runtime for Self-Healing Agents
- Title(参考訳): VIGIL: セルフヒーリングエージェントのリフレクティブランタイム
- Authors: Christopher Cruz,
- Abstract要約: 本稿では、兄弟エージェントを監督し、タスク実行よりも自律的なメンテナンスを行う反射型ランタイムVIGILを提案する。
VIGILは行動ログを取り込み、各イベントを構造化された感情表現に評価し、崩壊と文脈ポリシーを備えたEmoBankを維持し、最近の行動を強み、機会、失敗に分類するRTT診断を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic LLM frameworks promise autonomous behavior via task decomposition, tool use, and iterative planning, but most deployed systems remain brittle. They lack runtime introspection, cannot diagnose their own failure modes, and do not improve over time without human intervention. In practice, many agent stacks degrade into decorated chains of LLM calls with no structural mechanisms for reliability. We present VIGIL (Verifiable Inspection and Guarded Iterative Learning), a reflective runtime that supervises a sibling agent and performs autonomous maintenance rather than task execution. VIGIL ingests behavioral logs, appraises each event into a structured emotional representation, maintains a persistent EmoBank with decay and contextual policies, and derives an RBT diagnosis that sorts recent behavior into strengths, opportunities, and failures. From this analysis, VIGIL generates both guarded prompt updates that preserve core identity semantics and read only code proposals produced by a strategy engine that operates on log evidence and code hotspots. VIGIL functions as a state gated pipeline. Illegal transitions produce explicit errors rather than allowing the LLM to improvise. In a reminder latency case study, VIGIL identified elevated lag, proposed prompt and code repairs, and when its own diagnostic tool failed due to a schema conflict, it surfaced the internal error, produced a fallback diagnosis, and emitted a repair plan. This demonstrates meta level self repair in a deployed agent runtime.
- Abstract(参考訳): エージェントLLMフレームワークはタスクの分解、ツールの使用、反復的な計画を通じて自律的な振る舞いを約束するが、ほとんどのデプロイシステムは不安定である。
実行時のイントロスペクションが欠如し、独自の障害モードの診断ができず、人間の介入なしに時間の経過とともに改善されない。
実際には、多くのエージェントスタックがLLMの装飾されたチェーンに分解され、信頼性のための構造的なメカニズムがない。
本稿では,VIGIL(Verifiable Inspection and Guarded Iterative Learning)という,兄弟エージェントを監督し,タスク実行よりも自律的なメンテナンスを行うリフレクティブランタイムを提案する。
VIGILは行動ログを取り込み、各イベントを構造化された感情表現に評価し、崩壊と文脈ポリシーを備えたEmoBankを維持し、最近の行動を強み、機会、失敗に分類するRTT診断を導出する。
この分析から、VIGILは、コアアイデンティティセマンティクスを保存する保護されたプロンプト更新と、ログエビデンスとコードホットスポットを操作する戦略エンジンによって生成されたコードのみを読み取ります。
VIGILはステートゲートパイプラインとして機能する。
偶数遷移は LLM を即効化させるのではなく、明示的なエラーを生成する。
VIGILのリマインダーレイテンシケーススタディでは、遅延の増大、プロンプトとコード修正の提案、スキーマの競合によって独自の診断ツールが失敗した場合、内部エラーを表面化し、フォールバック診断を生成し、修復計画を実行した。
これは、デプロイされたエージェントランタイムでメタレベルの自己修復を示す。
関連論文リスト
- DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [50.68504641209259]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Scene Graph-Guided Proactive Replanning for Failure-Resilient Embodied Agent [9.370683025542686]
本稿では,サブタスク境界における障害の検出と修正を行う,アクティブなリプランニングフレームワークを提案する。
AI2-THORシミュレータの実験では,実行障害発生前の意味的および空間的ミスマッチを検出する。
論文 参考訳(メタデータ) (2025-08-15T07:48:51Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。