論文の概要: On Safety Risks in Experience-Driven Self-Evolving Agents
- arxiv url: http://arxiv.org/abs/2604.16968v1
- Date: Sat, 18 Apr 2026 11:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.265757
- Title: On Safety Risks in Experience-Driven Self-Evolving Agents
- Title(参考訳): 体験型自己進化型エージェントの安全性リスクについて
- Authors: Weixiang Zhao, Yichen Zhang, Yingshuo Wang, Yang Deng, Yanyan Zhao, Xuda Zhi, Yongbo Huang, HaoHe, Wanxiang Che, Bing Qin, Ting Liu,
- Abstract要約: 本研究では, 自己進化型エージェントの蓄積と利用が, Web ベースおよび実施環境における安全性能に与える影響について検討する。
本研究は,現在の自己進化剤の限界を明らかにするとともに,安全で信頼性の高い適応を確実にするための,より原則化された戦略を求めるものである。
- 参考スコア(独自算出の注目度): 78.82066774532676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience-driven self-evolution has emerged as a promising paradigm for improving the autonomy of large language model agents, yet its reliance on self-curated experience introduces underexplored safety risks. In this study, we investigate how experience accumulation and utilization in self-evolving agents affect safety performance across web-based and embodied environments. Notably, experience gathered solely from benign tasks can still compromise safety in high-risk scenarios. Further analysis attributes this degradation to the execution-oriented nature of accumulated experience, which reinforces agents' tendency to act rather than refuse. In more realistic settings where agents encounter both benign and harmful tasks, refusal-related experience mitigates safety decline but induces over-refusal, revealing a fundamental safety-utility trade-off. Overall, our findings expose inherent limitations of current self-evolving agents and call for more principled strategies to ensure safe and reliable adaptation.
- Abstract(参考訳): 経験駆動型自己進化は、大規模言語モデルエージェントの自律性を改善するための有望なパラダイムとして現れてきたが、自己計算型エクスペリエンスへの依存は、未調査の安全性リスクをもたらす。
本研究では, 自己進化型エージェントの蓄積と利用が, Web ベースおよびエンボディ環境における安全性能に与える影響について検討した。
特に、良心的なタスクからのみ集められた経験は、リスクの高いシナリオの安全性を損なう可能性がある。
さらなる分析では、この劣化は蓄積された経験の実行指向性に起因しており、エージェントが拒否するよりも行動する傾向を強めている。
エージェントが悪質なタスクと有害なタスクの両方に遭遇するより現実的な環境では、拒絶関連の経験は安全性の低下を緩和するが、過剰な拒絶を引き起こす。
全体としては、現在の自己進化エージェントの本質的な限界を明らかにし、安全で信頼性の高い適応を保証するためのより原則化された戦略を要求している。
関連論文リスト
- BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments [22.32760987248309]
本研究では,機能的環境における位置エージェントの行動安全リスクを明らかにするベンチマークであるBeSafe-Bench(BSB)を提案する。
BSBは、Web、Mobile、Embodied VLM、Embodied VLAの4つの代表的なドメインをカバーしている。
機能的環境を用いて、安全クリティカルリスクの9つのカテゴリでタスクを増強し、多様な指導空間を構築する。
論文 参考訳(メタデータ) (2026-01-30T03:41:57Z) - Large Language Model Agents Are Not Always Faithful Self-Evolvers [84.08646612111092]
自己進化型大規模言語モデル(LLM)エージェントは、過去の経験を蓄積し再利用することによって継続的に改善される。
本稿では,経験の忠実さ,エージェントの判断が与えられた経験に因果的依存を初めて体系的に調査する。
論文 参考訳(メタデータ) (2026-01-30T01:05:15Z) - SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs [37.82193156438782]
本稿では, エージェント安全評価の新しいパラダイムとして, 継続的かつ自己進化的なプロセスとしてのリフレーミング評価を提案する。
本稿では、構造化されていないポリシー文書を自律的に取り込み、包括的な安全ベンチマークを生成し、永続的に進化させる、新しいマルチエージェントフレームワークSafeEvalAgentを提案する。
本実験はSafeEvalAgentの有効性を実証し,評価が強まるにつれてモデルの安全性が一貫した低下を示す。
論文 参考訳(メタデータ) (2025-09-30T11:20:41Z) - IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks [30.535665641990114]
対話型安全性のために設計された最初のマルチモーダルベンチマークであるIS-Benchを紹介する。
高忠実度シミュレーターでインスタンス化された388のユニークな安全リスクを持つ161の挑戦的なシナリオが特徴である。
これは、特定のリスク発生ステップの前/後においてリスク軽減アクションが実行されるかどうかを検証する、プロセス指向の新たな評価を容易にする。
論文 参考訳(メタデータ) (2025-06-19T15:34:46Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。