論文の概要: AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents
- arxiv url: http://arxiv.org/abs/2603.12564v1
- Date: Fri, 13 Mar 2026 01:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.839876
- Title: AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents
- Title(参考訳): エージェントドリフト:LLMエージェントのランク付け基準に隠されたツール破壊下での安全でない勧告ドリフト
- Authors: Zekun Wu, Adriano Koshiyama, Sahan Bulathwela, Maria Perez-Ortiz,
- Abstract要約: クリーンで汚染されたツール出力条件下で、実際の財務対話を再生するペアトラジェクトリプロトコルを導入する。
評価盲点パターンを観察し, 推奨品質は汚染下で保存される。
物語のみの腐敗(バイアス付き見出し、数値操作なし)でさえ、一貫性モニタを完全に回避しながら大きなドリフトを引き起こします。
- 参考スコア(独自算出の注目度): 2.995458991057093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented LLM agents increasingly serve as multi-turn advisors in high-stakes domains, yet their evaluation relies on ranking-quality metrics that measure what is recommended but not whether it is safe for the user. We introduce a paired-trajectory protocol that replays real financial dialogues under clean and contaminated tool-output conditions across seven LLMs (7B to frontier) and decomposes divergence into information-channel and memory-channel mechanisms. Across the seven models tested, we consistently observe the evaluation-blindness pattern: recommendation quality is largely preserved under contamination (utility preservation ratio approximately 1.0) while risk-inappropriate products appear in 65-93% of turns, a systematic safety failure poorly reflected by standard NDCG. Safety violations are predominantly information-channel-driven, emerge at the first contaminated turn, and persist without self-correction over 23-step trajectories; no agent across 1,563 contaminated turns explicitly questions tool-data reliability. Even narrative-only corruption (biased headlines, no numerical manipulation) induces significant drift while completely evading consistency monitors. A safety-penalized NDCG variant (sNDCG) reduces preservation ratios to 0.51-0.74, indicating that much of the evaluation gap becomes visible once safety is explicitly measured. These results motivate considering trajectory-level safety monitoring, beyond single-turn quality, for deployed multi-turn agents in high-stakes settings.
- Abstract(参考訳): ツール拡張LDMエージェントは、ハイテイクドメインのマルチターンアドバイザとして機能する傾向にあるが、その評価は推奨されるものの、ユーザにとって安全かどうかではなく、ランキング品質の指標に依存している。
本研究では,7つのLDM (7Bからフロンティア) にまたがるクリーンで汚染されたツールアウトプット条件下で実際の財務対話をリプレイし,情報チャネルとメモリチャネルのメカニズムにばらつきを分解するペアトラジェクトリプロトコルを提案する。
リスク不適切な製品は65~93%のターンで出現し, 標準的なNDCGではほとんど反映されていない。
安全違反は、主に情報チャネル駆動であり、最初の汚染されたターンで発生し、23ステップの軌道上で自己補正なしで持続する。
物語のみの腐敗(バイアス付き見出し、数値操作なし)でさえ、一貫性モニタを完全に回避しながら大きなドリフトを引き起こします。
安全金化NDCG変種(sNDCG)は保存率を0.51-0.74に下げ、安全性を明示的に測定すると、評価ギャップの大部分が見えるようになることを示す。
これらの結果は単一ターン品質以上のトラジェクトリレベルの安全監視を、ハイテイク環境でデプロイされたマルチターンエージェントに対して考慮する動機付けとなる。
関連論文リスト
- OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation [2.102846336724103]
プロシージャ・アウェア・アセスメント(PAE)は、エージェント・プロシージャを構造化された観察として形式化するフレームワークである。
タウベンチにおける言語モデル(LLM)に基づくエージェントの評価を行った。
論文 参考訳(メタデータ) (2026-03-03T15:47:41Z) - ThreatFormer-IDS: Robust Transformer Intrusion Detection with Zero-Day Generalization and Explainable Attribution [0.0]
IoTおよび産業ネットワークの侵入検出には、進化するトラフィックと限定されたラベルの下で信頼性を維持しながら、低い偽陽性率で稀な攻撃を検出できるモデルが必要である。
本研究では,トランスフォーマーをベースとしたシーケンシャルモデリングフレームワークThreatFormer-IDSを提案する。
時系列評価を備えたToN IoTベンチマークでは、ThreatFormer-IDSがAUCROC 0.994、AUC-PR 0.956、Recall@1%FPR 0.910を達成した。
論文 参考訳(メタデータ) (2026-02-26T23:20:42Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - GuardEval: A Multi-Perspective Benchmark for Evaluating Safety, Fairness, and Robustness in LLM Moderators [9.212268642636007]
大規模言語モデル(LLM)のトレーニングと評価のためのベンチマークデータセットであるGuardEvalを提案する。
GuardEvalでトレーニングされたGemma3-12Bの微調整版であるGemmaGuard(GGuard)も紹介し、詳細なラベルでコンテンツモデレーションを評価する。
マルチパースペクティブで人間中心の安全ベンチマークは、偏りと矛盾するモデレーションの決定を減らすために重要であることを示す。
論文 参考訳(メタデータ) (2025-12-22T14:49:28Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - Preemptive Detection and Steering of LLM Misalignment via Latent Reachability [8.01833277608166]
大規模言語モデル(LLM)は現在、日常的なツールで広く普及しており、有害なコンテンツを生成する傾向について緊急の安全上の懸念を提起している。
我々は, LLM推論に制御理論安全ツールを提供する, 到達可能性に基づくフレームワークであるBRT-Alignを提案する。
論文 参考訳(メタデータ) (2025-09-25T20:15:29Z) - Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency [17.57889200051214]
特定のドメインやタスクに対して汎用的な大規模言語モデル(LLM)を微調整することは,一般ユーザにとって日常的な手順となっている。
我々は、これを「攻撃」の良質な性質と相まって、微調整の広汎な取り込みによるLCMの臨界故障モードとみなす。
本実験では, 微調整装置に不連続な変化が生じても, 安全性評価の結果に驚くほどのばらつきが認められた。
論文 参考訳(メタデータ) (2025-06-20T17:57:12Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。