論文の概要: SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents
- arxiv url: http://arxiv.org/abs/2512.07850v1
- Date: Wed, 26 Nov 2025 01:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.515274
- Title: SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents
- Title(参考訳): SABER: 小さなアクション、大きなエラー -- LLMエージェントの修正ステップの保護
- Authors: Alejandro Cuadron, Pengfei Yu, Yang Liu, Arpit Gupta,
- Abstract要約: 我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
- 参考スコア(独自算出の注目度): 52.20768003832476
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite rapid progress in LLM agents, performance on long-horizon, tool-using tasks remains fragile. To better understand this fragility, we ask a simple question: \emph{do all actions contribute equally to failure?} Analyzing execution traces on $τ$-Bench (Airline/Retail) and SWE-Bench Verified, we decompose trajectories into \emph{mutating} (environment-changing) vs.\ non-mutating steps and formalize \emph{decisive deviations}, earliest action, level divergences that flip success to failure. A logistic regression reveals that each additional deviation in a mutating action reduces the odds of success by upto $92\%$ on Airline and upto $96\%$ on Retail for SoTA models. In contrast, deviations in non-mutating actions have little to no effect. Errors also grow with context length as agents drift from role and act on stale constraints. Motivated by these observations, we introduce \cm{}, a model-agnostic, gradient-free, test-time safeguard that (i) adds mutation-gated verification, (ii) injects \emph{Targeted Reflection} before mutating steps, and (iii) performs block-based context cleaning. \cm{} delivers consistent gains, e.g., Qwen3-Thinking: +28\% \emph{relative} on Airline, +11\% on Retail, and +7\% on SWE-Bench Verified; Claude: +9\%/+7\%. We further identify ceiling effects in $τ$-Bench, where annotation errors and underspecified tasks artificially cap model performance. To address this, we release $τ$-Bench Verified, which restores benchmark headroom through targeted revisions. Our results argue for action-level analysis, targeted safeguards, and reliable evaluations as prerequisites for robust multi-turn agents.
- Abstract(参考訳): LLMエージェントの急速な進歩にもかかわらず、長期的なツール使用タスクの性能は依然として脆弱である。
この脆弱さをよりよく理解するために、簡単な質問をする: \emph{do all action contribute to failure?
} $τ$-Bench (Airline/Retail) と SWE-Bench Verified の実行トレースを分析して、トラジェクトリを \emph{mutating} (環境変更) に分解する。
最初期のアクションである、失敗への成功を反転させるレベル発散をフォーマル化する。
ロジスティック回帰は、変更アクションにおける各追加の偏差が、Airlineで最大92.%、SoTAモデルで最大9.6.%という成功確率を減少させることを示している。
対照的に、非変異行動における偏差は、ほとんど、あるいは全く影響しない。
エージェントがロールからドリフトし、古い制約に作用するにつれて、エラーもコンテキストの長さで増加する。
これらの観測によって動機づけられた,モデルに依存しない,勾配のない,テスト時の安全ガードである \cm{} を導入する。
(i) 変異修飾検証を追加する。
(ii) ステップを変更する前に \emph{Targeted Reflection} を注入し、
(iii)ブロックベースのコンテキストクリーニングを行う。
例えば、Qwen3-Thinking: +28\% \emph{relative} on Airline, +11\% on Retail, +7\% on SWE-Bench Verified; Claude: +9\%/+7\%である。
さらに$τ$-Benchの天井効果を識別し、アノテーションエラーと不特定タスクがモデル性能を人工的に上限付けする。
これを解決するため、ターゲットとするリビジョンを通じてベンチマークヘッドルームを復元する$τ$-Bench Verifiedをリリースします。
本研究は,ロバストなマルチターンエージェントの前提条件として,アクションレベル分析,ターゲットセーフガード,信頼性評価を論じる。
関連論文リスト
- DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large
Language Models [46.92994945808424]
マルチモーダル大言語モデル(MLLM)の微調整における破滅的忘れ込みの課題
本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T11:02:05Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。