論文の概要: LiSA: Lifelong Safety Adaptation via Conservative Policy Induction
- arxiv url: http://arxiv.org/abs/2605.14454v1
- Date: Thu, 14 May 2026 06:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.671277
- Title: LiSA: Lifelong Safety Adaptation via Conservative Policy Induction
- Title(参考訳): LiSA:保守的政策誘導による生涯安全適応
- Authors: Minbeom Kim, Lesly Miculicich, Bhavana Dalvi Mishra, Mihir Parmar, Phillip Wallis, Bharath Chandrasekhar, Kyomin Jung, Tomas Pfister, Long T. Le,
- Abstract要約: ガードレールはもはや単なる回答品質ではなく、秘密を漏らしたり、安全でない行為を許可したり、正当な作業をブロックしたりすることができる。
LiSAは、構造化メモリを通じて固定ベースガードレールを改善する保守的なポリシー誘導フレームワークである。
結局のところ、LiSAは、現実のエッジリスクの予測不可能な長いテールに対して、AIエージェントを保護するための実践的なパスを提供する。
- 参考スコア(独自算出の注目度): 45.88278850743155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI agents move from chat interfaces to systems that read private data, call tools, and execute multi-step workflows, guardrails become a last line of defense against concrete deployment harms. In these settings, guardrail failures are no longer merely answer-quality errors: they can leak secrets, authorize unsafe actions, or block legitimate work. The hardest failures are often contextual: whether an action is acceptable depends on local privacy norms, organizational policies, and user expectations that resist pre-deployment specification. This creates a practical gap: guardrails must adapt to their own operating environments, yet deployment feedback is typically limited to sparse, noisy user-reported failures, and repeated fine-tuning is often impractical. To address this gap, we propose LiSA (Lifelong Safety Adaptation), a conservative policy induction framework that improves a fixed base guardrail through structured memory. LiSA converts occasional failures into reusable policy abstractions so that sparse reports can generalize beyond individual cases, adds conflict-aware local rules to prevent overgeneralization in mixed-label contexts, and applies evidence-aware confidence gating via a posterior lower bound, so that memory reuse scales with accumulated evidence rather than empirical accuracy alone. Across PrivacyLens+, ConFaide+, and AgentHarm, LiSA consistently outperforms strong memory-based baselines under sparse feedback, remains robust under noisy user feedback even at 20% label-flip rates, and pushes the latency--performance frontier beyond backbone model scaling. Ultimately, LiSA offers a practical path to secure AI agents against the unpredictable long tail of real-world edge risks.
- Abstract(参考訳): AIエージェントがチャットインターフェースからプライベートデータを読み、ツールを呼び、マルチステップワークフローを実行するシステムに移行するにつれ、ガードレールは具体的なデプロイメント障害に対する最後の防御線となる。
これらの設定では、ガードレールの障害は単に応答品質のエラーではなく、シークレットをリークしたり、安全でないアクションを承認したり、正当な作業をブロックすることができる。
アクションが受け入れられるかどうかは、ローカルなプライバシ規範や組織ポリシー、事前デプロイ仕様に反するユーザの期待に依存する。
ガードレールは自身の運用環境に適応しなければならないが、デプロイメントフィードバックは通常、スパースでノイズの多いユーザ報告の失敗に限られる。
このギャップに対処するために、構造化メモリを介して固定ベースガードレールを改善する保守的政策誘導フレームワークであるLiSA(Lifelong Safety Adaptation)を提案する。
LiSAは、時折障害を再利用可能なポリシー抽象化に変換して、スパースレポートが個々のケースを超えて一般化できるようにし、コンフリクト対応のローカルルールを追加して、混合ラベルのコンテキストにおける過度な一般化を防ぎ、後続の下位境界を経由したエビデンス対応の信頼性保証を適用し、メモリ再利用は経験的精度のみではなく蓄積されたエビデンスでスケールする。
PrivacyLens+、ConFaide+、AgentHarmの他、LiSAはスパースフィードバックの下で強いメモリベースベースラインを一貫して上回り、20%のラベルフリップ率でもノイズの多いユーザフィードバックの下で堅牢であり、バックボーンモデルのスケーリング以上のレイテンシパフォーマンスのフロンティアを押している。
結局のところ、LiSAは、現実のエッジリスクの予測不可能な長いテールに対して、AIエージェントを保護するための実践的なパスを提供する。
関連論文リスト
- PolicyBank: Evolving Policy Understanding for LLM Agents [51.86716874651299]
PolicyBankは構造化されたツールレベルの政策洞察を維持し、それらを反復的に洗練する。
PolicyBankは、人間の神託に対するギャップの最大82%を閉じている。
論文 参考訳(メタデータ) (2026-04-16T20:29:30Z) - CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation [68.53387633351484]
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
論文 参考訳(メタデータ) (2026-04-10T09:41:21Z) - Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning [4.839980912290382]
大規模言語モデル(LLM)は、ダウンストリームタスクでうまく機能するために細調整(FT)を必要とすることが多い。
FTは、トレーニングデータセットが良性データのみを含む場合でも、安全アライメントドリフトを誘導することができる。
本稿では,安全トークンに対するモデルの信頼性を安定化させる,制約付きトークンによる安全アライメントの保存(PACT)という微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-08T03:42:55Z) - Contextualized Privacy Defense for LLM Agents [84.30907378390512]
LLMエージェントはますますユーザーの個人情報に作用するが、既存のプライバシー保護は設計と適応性の両方において制限されている。
我々は,新たなプライバシ防衛パラダイムであるCDI(Contextualized Defense Instructing)を提案する。
我々のCDIは、ベースラインよりもプライバシー保護(94.2%)と有用性(80.6%)のバランスが良好であることを示します。
論文 参考訳(メタデータ) (2026-03-03T13:35:33Z) - Improving LLM Reliability through Hybrid Abstention and Adaptive Detection [1.9495934446083012]
運用環境にデプロイされる大規模言語モデル(LLM)は、基本的な安全ユーティリティトレードオフに直面します。
静的ルールや固定された信頼しきい値に基づく従来のガードレールは通常、文脈に敏感で計算コストが高い。
本研究では,リアルタイムのコンテキスト信号に基づいて安全閾値を動的に調整する適応型禁制システムを提案する。
論文 参考訳(メタデータ) (2026-02-17T07:00:09Z) - Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - GRPO Privacy Is at Risk: A Membership Inference Attack Against Reinforcement Learning With Verifiable Rewards [13.369116707284121]
Divergence-in-Behavior Attack (DIBA)は、Reinforcement Learning with Verifiable Rewards用に特別に設計された最初のメンバーシップ推論フレームワークである。
以上の結果から,DIBAは既存のベースラインを大きく上回り,約0.8AUC,高次TPR@0.1%FPRを達成した。
これは、RLVRにおけるプライバシーの脆弱性を体系的に分析する最初の研究であり、データ露出のトレーニングが行動トレースを通じて確実に推測できることを明らかにする。
論文 参考訳(メタデータ) (2025-11-18T01:51:34Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - Customize Multi-modal RAI Guardrails with Precedent-based predictions [55.63757336900865]
マルチモーダルガードレールは、ユーザ定義ポリシーに基づいて、画像コンテンツを効果的にフィルタリングする必要がある。
既存の微調整手法は、通常、事前に定義されたポリシーの条件予測を行う。
本稿では、入力に類似した先行データポイントの推論過程である「先行情報」に対する条件モデルの判断を提案する。
論文 参考訳(メタデータ) (2025-07-28T03:45:34Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。