論文の概要: The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents
- arxiv url: http://arxiv.org/abs/2606.04296v1
- Date: Tue, 02 Jun 2026 23:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.431589
- Title: The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents
- Title(参考訳): 介入タイミングの飽和トラップと主観性:なぜ自律エージェントの時間介入に影響を及ぼすか
- Authors: Manvendra Modgil,
- Abstract要約: インターベンションタイミングは信頼性の低い構造であり、シングルアノテータF1を不適切な最適化ターゲットとする。
我々の貢献は、人間のレータ間の信頼性、4つの検出器アーキテクチャ、モデルのLEM-judgeスイープ、再現された飽和効果にまたがるこの問題を、共同でマッピングすることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As autonomous AI agents move from conversational systems to long-horizon software execution, runtime safety layers that decide when to interrupt an agent have become essential. We study this timing problem using a continuous 18-dimensional affective-dynamics engine (HEART) as a diagnostic probe, evaluating four intervention trigger families - absolute state thresholds, composite state-action patterns, regex reasoning-feature extraction, and zero-shot LLM-as-judge - against human-annotated intervention points on SWE-bench-Verified debugging traces. We report three findings. First, a State Saturation Trap: agents show no recovery signal under sustained difficulty, so modeled frustration quickly crosses the threshold and stays at its maximum, converting threshold-on-state triggers from moment detectors into near-constant indicators that fire on 39-83% of actions across five trajectories. Second, a capability-and-context floor for LLM judges: a small model (gpt-5.4-mini) never fires, while frontier and cross-vendor models escape the zero-firing floor only with full-trajectory context, and even then reach only F1 0.17-0.40 at up to 90x the cost. Third, and most importantly, the supervised target is not reproducible among humans: three trained annotators using one rubric on a 56-action trajectory agree on where to intervene only slightly above chance (location Krippendorff's alpha = +0.047; best pairwise Cohen's kappa = +0.349) and not at all on intervention type (pause degenerate; clarify below chance; reflect only alpha = +0.226). We conclude that intervention timing is a low-reliability construct, making single-annotator F1 an unsuitable optimization target. Our contribution is the joint mapping of this problem across human inter-rater reliability, four detector architectures, a cross-model LLM-judge sweep, and a reproduced saturation effect, rather than any single detector's accuracy.
- Abstract(参考訳): 自律型AIエージェントが会話システムから長距離ソフトウェア実行に移行するにつれ、エージェントを中断するタイミングを決定するランタイムセーフティレイヤが不可欠になった。
連続18次元感情力学エンジン (HEART) を診断用プローブとして, 絶対状態閾値, 複合状態反応パターン, レゲックス推論特徴抽出, ゼロショットLPM-as-judge の4つの介入トリガーファミリーを, SWE-bench-Verifiedデバッグトレース上の人手による介入点に対して評価した。
我々は3つの発見を報告した。
まず、状態飽和トラップ:エージェントは持続的な困難下で回復シグナルを示さないため、モデル化されたフラストレーションは、しきい値を越えて最大値に留まり、モーメント検出器からのしきい値オンステートトリガーを5つの軌道で39~83%のアクションを発射するほぼ安定な指標に変換する。
第二に、LLMの判断のための機能とコンテキストのフロア: 小さなモデル(gpt-5.4-mini)が発射されることはなく、フロンティアとクロスベンダーのモデルは全軌道コンテキストのみでゼロファイリングフロアを脱出し、さらには最大90倍のコストでF1 0.17-0.40にしか到達できない。
56アクション軌道上で1つのルーリックを使用する3つの訓練されたアノテータ(Krippendorff's alpha = +0.047; best pairwise Cohen's kappa = +0.349; best pairwise Cohen's kappa = +0.349; best pairwise Cohen's kappa = +0.349; and not all at intervention type (pause degenerate, below chance; reflect only alpha = +0.226; reflect only alpha = +0.226)が一致している。
介入タイミングは信頼性の低い構造であり、単一アノテーションF1を不適切な最適化対象とする。
我々の貢献は、人間間の信頼性、4つの検出器アーキテクチャ、クロスモデルLCM-judgeスイープ、単一検出器の精度よりも再現された飽和効果にまたがるこの問題を、共同でマッピングすることである。
関連論文リスト
- Can LLM Agents Respond to Disasters? Benchmarking Heterogeneous Geospatial Reasoning in Emergency Operations [55.251494694783894]
災害対応エージェントベンチマーク(DORA)は、エンド・ツー・エンドの災害対応のための最初のエージェントベンチマークである。
タスクは、災害認識、空間関係分析、救助・避難計画、時間的進化推論、マルチモーダルレポート合成という、災害対応パイプラインをカバーする5つの次元にまたがる。
DORAは、運用上の信頼性の高い災害対応エージェントのための厳格なテストベッドを確立する。
論文 参考訳(メタデータ) (2026-05-12T06:57:41Z) - Trajectory-Consistent Flow Matching for Robust Visuomotor Policy Learning [1.7616042687330642]
フローマッチングポリシは、ノイズを動作に伝達する連続速度場を学習し、ロボット操作のための決定論的推論を可能にする。
標準トレーニングは、軌道の複雑な誤りを引き起こすミスマッチである、そのフィールドの数値的な統合を必要とする間、ポイントワイドな速度目標を最適化する。
本研究では,(1)全時間間隔にわたって時間的監督を均一に行う補助的整流流速度回帰,(2)軌道上の速度場の統合的変位を監督する多段階軌道整合性トレーニング,(3)時間的滑らかさを強制する速度場正規化の4つの補完策を提案する。
論文 参考訳(メタデータ) (2026-05-08T21:44:10Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention [2.0838114053126366]
LLM批判モデルによる積極的な介入は、しばしば信頼性を向上させると仮定されるが、展開時の影響はよく理解されていない。
高いオフライン精度 (AUROC 0.94) を持つバイナリLLM批判者は, にもかかわらず, 高い性能劣化を引き起こす可能性がある。
我々は、50のタスクからなる小さなパイロットを用いて、完全な配備を必要とせず、介入が助けになるか、害を与えるかを見積もる事前デプロイテストを提案する。
論文 参考訳(メタデータ) (2026-02-03T10:02:50Z) - Trajectory Guard -- A Lightweight, Sequence-Aware Model for Real-Time Anomaly Detection in Agentic AI [0.0]
トラジェクトリガードはシームズ・リカレント・オートエンコーダであり、コントラスト学習によるタスク・トラジェクトリアライメントと、再構成によるシーケンシャル・アライメントを共同で学習するハイブリッド・ロス機能を備えている。
32ミリ秒のレイテンシで、当社のアプローチは LLM Judge のベースラインよりも17-27倍高速で動作し、実運用環境におけるリアルタイムの安全性検証を可能にします。
論文 参考訳(メタデータ) (2026-01-02T00:27:11Z) - On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral [59.14787085809595]
この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
論文 参考訳(メタデータ) (2025-12-03T19:41:15Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Federated Spatiotemporal Graph Learning for Passive Attack Detection in Smart Grids [2.721477719641864]
本稿では,時間的ウィンドウ上で物理層と行動指標を融合させて受動的攻撃を検出するグラフ中心型マルチモーダル検出器を提案する。
テスト精度は98.32%、シーケンス毎の93.35%を0.15% FPRで達成している。
論文 参考訳(メタデータ) (2025-09-29T08:52:30Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。