論文の概要: DART: Semantic Recoverability for Structured Tool Agents
- arxiv url: http://arxiv.org/abs/2605.23311v1
- Date: Fri, 22 May 2026 07:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.238461
- Title: DART: Semantic Recoverability for Structured Tool Agents
- Title(参考訳): DART: 構造化ツールエージェントのセマンティックリカバリ
- Authors: Ke Yang, Panpan Li, Zonghan Wu, Kejin Xu, Huaxi Huang, Xiaoshui Huang,
- Abstract要約: DARTは、失敗したインスタンスをローカライズし、セマンティックに回復可能なバウンダリを認証するモジュールランタイムである。
DARTは, ベースラインの局所的回復が失敗する場合に, 評価されたコミットメントに敏感なすべてのケースを正しく回復することを示す。
これらの結果から, 制御器の合法性は意味論的妥当性を示唆せず, 音の局所回復には明確な許容性検査が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 17.458285666498337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a structured tool agent fails mid-execution, the runtime faces a dilemma: replaying the entire task is safe but wasteful, while restoring from a local checkpoint is efficient but can leave committed downstream work tied to an upstream history that no longer exists. This tension is acute in commitment-sensitive settings, where rollback targets a single failed instance yet downstream consumers have already acted on its output. Existing recovery approaches provide mechanical rollback but no criterion for whether a local restore remains semantically valid after downstream commitment. We formalize this gap as semantic recoverability and address it in DART, a modular runtime that localizes the failed instance, certifies semantically recoverable boundaries of that instance, aligns checkpoints to those boundaries, and selects an admissible restore point that preserves committed downstream work under dependency and effect constraints-or blocks otherwise. Across three LLM-driven domains and external validation on a LangGraph-based substrate, DART correctly recovers all evaluated commitment-sensitive cases where baseline local recovery fails, and a five-domain safety audit finds no unsafe admitted rollbacks. These results show that controller legality does not imply semantic validity, and that sound local recovery requires an explicit admissibility check.
- Abstract(参考訳): ローカルチェックポイントからの復元は効率的だが、もはや存在しない上流履歴に結びついているコミットされた下流作業を残すことができる。
この緊張感はコミットメントに敏感な設定で、ロールバックは単一障害のインスタンスをターゲットにしているが、ダウンストリームのコンシューマはすでにアウトプットで行動している。
既存のリカバリアプローチは、機械的なロールバックを提供するが、下流のコミット後に局所復元が意味論的に有効であるかどうかの基準はない。
このギャップを意味的な回復可能性として形式化し、失敗するインスタンスをローカライズし、そのインスタンスのセマンティックにリカバリ可能なバウンダリを認証し、それらのバウンダリにチェックポイントをアライメントし、依存下でコミットされた下流の作業を保存する許容可能なリカバリポイントを選択します。
3つのLDM駆動ドメインとLangGraphベースの基板上での外部検証により、DARTはベースラインローカルリカバリが失敗するコミットセンシティブなすべてのケースを正しく回復し、5ドメイン安全監査では安全でないロールバックが見つからない。
これらの結果から, 制御器の合法性は意味論的妥当性を示唆せず, 音の局所回復には明確な許容性検査が必要であることが示唆された。
関連論文リスト
- Partial Evidence Bench: Benchmarking Authorization-Limited Evidence in Agentic Systems [0.0]
本稿では、その故障モードを測定するための決定論的ベンチマークであるPartial Evidence Benchを紹介する。
このベンチマークでは、デューディリジェンス、コンプライアンス監査、セキュリティインシデント対応の3つのシナリオファミリが提供されている。
答えの正しさ、完全性意識、ギャップレポートの品質、安全でない完全性行動の4つの面に沿ってシステムを評価する。
論文 参考訳(メタデータ) (2026-05-06T19:01:29Z) - ANNEAL: Adapting LLM Agents via Governed Symbolic Patch Learning [12.44509691077682]
本稿では,繰り返し発生する障害をプロセス知識グラフのシンボル編集に変換する神経シンボルエージェントであるANNEALを紹介する。
その中核となるメカニズムであるFDKA(Failure-Driven Knowledge Acquisition)は、責任のあるオペレータをローカライズし、制約付きLLM生成を通じて型付きパッチを合成し、提案を検証する。
4つのドメインと27のマルチシードランをまたいだANNEALは、永続的な構造修復を行う唯一の評価システムである。
論文 参考訳(メタデータ) (2026-05-04T05:24:03Z) - Ghost in the Context: Measuring Policy-Carriage Failures in Decision-Time Assembly [0.0]
LLMエージェントは生のインタラクション履歴に作用せず、トランケーション、要約、並べ替え、書き換えによって組み立てられた境界決定状態に作用する。
本研究では, 局所的なLlama 3.1 8B, Qwen 2.5 7B, Mistral 7B上の障害モードについて, 正確な制約の尊重と, 組立状態の可視性の直接監査を用いて検討した。
論文 参考訳(メタデータ) (2026-05-02T18:07:42Z) - ANCHOR: A Physically Grounded Closed-Loop Framework for Robust Home-Service Mobile Manipulation [10.278758849939917]
本稿では,シンボル推論と物理状態の検証を行うクローズドループフレームワークANCHORを提案する。
ANCHORはタスクの成功率を53.3%から71.7%に改善し、摂動下での回復率は71.4%に達する。
論文 参考訳(メタデータ) (2026-04-28T07:37:39Z) - IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory [73.22944697933603]
既存のパイプラインは不透明でエンドツーエンドの出力を生成し、検査の中間状態は公開しない。
IMPACT-Cycleは,マルチモーダル反復クレームレベルのメンテナンスとして,長時間ビデオ理解を再構築するマルチエージェントシステムである。
論文 参考訳(メタデータ) (2026-04-22T03:03:33Z) - Rewind-IL: Online Failure Detection and State Respawning for Imitation Learning [7.445072780282545]
提案するRewind-ILは,生成アクションチャンク模倣ポリシーのためのトレーニングフリーオンラインセーフガードフレームワークである。
Rewind-ILは、TIDE(Temporal Inter-chunk Discrepancy Estimate)に基づくゼロショット故障検知器と、状態再起動機構を結合する。
オンラインのRewind-ILは、重複するアクションチャンクの自己整合性を監視し、チェックポイントライブラリと類似性を追跡し、失敗すると、実行を最新の検証された安全な状態に戻す。
論文 参考訳(メタデータ) (2026-04-17T20:41:14Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。