Fugu-MT 論文翻訳(概要): SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents

論文の概要: SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents

arxiv url: http://arxiv.org/abs/2512.07850v1
Date: Wed, 26 Nov 2025 01:28:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-15 04:16:52.515274
Title: SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents
Title（参考訳）: SABER: 小さなアクション、大きなエラー -- LLMエージェントの修正ステップの保護
Authors: Alejandro Cuadron, Pengfei Yu, Yang Liu, Arpit Gupta,
Abstract要約: 我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
参考スコア（独自算出の注目度）: 52.20768003832476
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite rapid progress in LLM agents, performance on long-horizon, tool-using tasks remains fragile. To better understand this fragility, we ask a simple question: \emph{do all actions contribute equally to failure?} Analyzing execution traces on $τ$-Bench (Airline/Retail) and SWE-Bench Verified, we decompose trajectories into \emph{mutating} (environment-changing) vs.\ non-mutating steps and formalize \emph{decisive deviations}, earliest action, level divergences that flip success to failure. A logistic regression reveals that each additional deviation in a mutating action reduces the odds of success by upto $92\%$ on Airline and upto $96\%$ on Retail for SoTA models. In contrast, deviations in non-mutating actions have little to no effect. Errors also grow with context length as agents drift from role and act on stale constraints. Motivated by these observations, we introduce \cm{}, a model-agnostic, gradient-free, test-time safeguard that (i) adds mutation-gated verification, (ii) injects \emph{Targeted Reflection} before mutating steps, and (iii) performs block-based context cleaning. \cm{} delivers consistent gains, e.g., Qwen3-Thinking: +28\% \emph{relative} on Airline, +11\% on Retail, and +7\% on SWE-Bench Verified; Claude: +9\%/+7\%. We further identify ceiling effects in $τ$-Bench, where annotation errors and underspecified tasks artificially cap model performance. To address this, we release $τ$-Bench Verified, which restores benchmark headroom through targeted revisions. Our results argue for action-level analysis, targeted safeguards, and reliable evaluations as prerequisites for robust multi-turn agents.
Abstract（参考訳）: LLMエージェントの急速な進歩にもかかわらず、長期的なツール使用タスクの性能は依然として脆弱である。この脆弱さをよりよく理解するために、簡単な質問をする: \emph{do all action contribute to failure? } $τ$-Bench (Airline/Retail) と SWE-Bench Verified の実行トレースを分析して、トラジェクトリを \emph{mutating} (環境変更) に分解する。最初期のアクションである、失敗への成功を反転させるレベル発散をフォーマル化する。ロジスティック回帰は、変更アクションにおける各追加の偏差が、Airlineで最大92.%、SoTAモデルで最大9.6.%という成功確率を減少させることを示している。対照的に、非変異行動における偏差は、ほとんど、あるいは全く影響しない。エージェントがロールからドリフトし、古い制約に作用するにつれて、エラーもコンテキストの長さで増加する。これらの観測によって動機づけられた,モデルに依存しない,勾配のない,テスト時の安全ガードである \cm{} を導入する。 (i) 変異修飾検証を追加する。 (ii) ステップを変更する前に \emph{Targeted Reflection} を注入し、 (iii)ブロックベースのコンテキストクリーニングを行う。例えば、Qwen3-Thinking: +28\% \emph{relative} on Airline, +11\% on Retail, +7\% on SWE-Bench Verified; Claude: +9\%/+7\%である。さらに$τ$-Benchの天井効果を識別し、アノテーションエラーと不特定タスクがモデル性能を人工的に上限付けする。これを解決するため、ターゲットとするリビジョンを通じてベンチマークヘッドルームを復元する$τ$-Bench Verifiedをリリースします。本研究は,ロバストなマルチターンエージェントの前提条件として,アクションレベル分析,ターゲットセーフガード,信頼性評価を論じる。

関連論文リスト

Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文参考訳（メタデータ） (2026-02-10T21:08:53Z)
When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents [50.5814495434565]
この研究は、コンピュータ利用エージェント(CUA)における不整合検出を定義し、研究する最初の試みである。実世界のCUAデプロイメントにおける3つの一般的なカテゴリを特定し、人間の注釈付きアクションレベルのアライメントラベルを用いたリアルな軌跡のベンチマークであるMisActBenchを構築した。本稿では,実行前に不整合を検知し,構造化されたフィードバックによって繰り返し修正する,実用的で普遍的なガードレールであるDeActionを提案する。
論文参考訳（メタデータ） (2026-02-09T18:41:15Z)
Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents [31.789859492703016]
エージェント・ツール通信ループは、Large Language Model (LLM)エージェントにおけるクリティカルアタックサーフェスである。既存のDoS(DoS)攻撃は、この新しいパラダイムには効果がない。正常に完了したタスクのヒントのもと、ツール層で機能するステルスで多ターンの経済DoS攻撃を導入する。
論文参考訳（メタデータ） (2026-01-16T02:47:45Z)
ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions [0.32928123659012326]
ツールを使用するLLMエージェントの既存のベンチマークでは、主に単一実行の成功率を報告し、運用に必要な信頼性特性を見逃している。エージェントの信頼性を3次元にわたって評価するベンチマークである textbfReliabilityBench を紹介する。我々は2つのモデル(Gemini 2.0 Flash, GPT-4o)と2つのエージェントアーキテクチャ(ReAct, Reflexion)を1,280回にわたって4つのドメイン(スケジューリング、旅行、カスタマーサポート、eコマース)で評価した。
論文参考訳（メタデータ） (2026-01-03T13:41:33Z)
DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。 DoVerは失敗試験の18～28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30～60%を検証または否定する。
論文参考訳（メタデータ） (2025-12-07T09:23:48Z)
Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。 A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文参考訳（メタデータ） (2025-09-12T16:51:15Z)
Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。 LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文参考訳（メタデータ） (2025-05-23T08:23:36Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models [46.92994945808424]
マルチモーダル大言語モデル(MLLM)の微調整における破滅的忘れ込みの課題本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。
論文参考訳（メタデータ） (2024-02-19T11:02:05Z)
Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文参考訳（メタデータ） (2021-04-16T14:37:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。