論文の概要: From Refusal to Recovery: A Control-Theoretic Approach to Generative AI Guardrails
- arxiv url: http://arxiv.org/abs/2510.13727v1
- Date: Wed, 15 Oct 2025 16:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.76236
- Title: From Refusal to Recovery: A Control-Theoretic Approach to Generative AI Guardrails
- Title(参考訳): 拒絶から回復へ:AIガードレール生成に対する制御理論的アプローチ
- Authors: Ravi Pandya, Madison Bland, Duy P. Nguyen, Changliu Liu, Jaime Fernández Fisac, Andrea Bajcsy,
- Abstract要約: ほとんどのAIガードレールは、ラベル付きデータセットと人間の特定基準に基づいた出力分類に依存している。
私たちはAIシステムのアウトプットをリアルタイムで監視し、安全なアウトプットに対して積極的に修正する予測ガードレールを構築します。
シミュレーション運転とeコマース設定の実験では、制御理論のガードレールが破滅的な結果を確実に排除できることを示した。
- 参考スコア(独自算出の注目度): 12.84192844049763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI systems are increasingly assisting and acting on behalf of end users in practical settings, from digital shopping assistants to next-generation autonomous cars. In this context, safety is no longer about blocking harmful content, but about preempting downstream hazards like financial or physical harm. Yet, most AI guardrails continue to rely on output classification based on labeled datasets and human-specified criteria,making them brittle to new hazardous situations. Even when unsafe conditions are flagged, this detection offers no path to recovery: typically, the AI system simply refuses to act--which is not always a safe choice. In this work, we argue that agentic AI safety is fundamentally a sequential decision problem: harmful outcomes arise from the AI system's continually evolving interactions and their downstream consequences on the world. We formalize this through the lens of safety-critical control theory, but within the AI model's latent representation of the world. This enables us to build predictive guardrails that (i) monitor an AI system's outputs (actions) in real time and (ii) proactively correct risky outputs to safe ones, all in a model-agnostic manner so the same guardrail can be wrapped around any AI model. We also offer a practical training recipe for computing such guardrails at scale via safety-critical reinforcement learning. Our experiments in simulated driving and e-commerce settings demonstrate that control-theoretic guardrails can reliably steer LLM agents clear of catastrophic outcomes (from collisions to bankruptcy) while preserving task performance, offering a principled dynamic alternative to today's flag-and-block guardrails.
- Abstract(参考訳): 生成AIシステムは、デジタルショッピングアシスタントから次世代の自動運転車まで、実践的な環境でエンドユーザーに代わって、ますます支援し、行動している。
この文脈では、安全はもはや有害なコンテンツをブロックすることではなく、金融や身体的な危害といった下流の危険を予防することである。
しかし、ほとんどのAIガードレールはラベル付きデータセットと人間の特定基準に基づいた出力分類に依存しており、新たな危険な状況に脆弱である。
安全でない条件が通知されたとしても、この検出はリカバリへの道を提供しません。
この研究では、エージェントAIの安全性は基本的に、シーケンシャルな決定の問題である、と論じる。
我々は、安全クリティカル制御理論のレンズを通してこれをフォーマルに定式化するが、AIモデルの世界に潜む表現の中ではそうである。
これにより、予測ガードレールを構築することができます。
i)AIシステムの出力(動作)をリアルタイムで監視し、
(ii) 危険出力を安全出力に積極的に補正し、すべてモデルに依存しない方法で、同じガードレールを任意のAIモデルにラップできるようにします。
また、安全クリティカルな強化学習を通じて、このようなガードレールを大規模に計算するための実践的なトレーニングレシピも提供する。
シミュレーション運転および電子商取引環境における実験により、制御理論ガードレールは、現在のフラグ・アンド・ブロックガードレールに代わる原理的な動的代替手段を提供しながら、破滅的な結果(衝突から倒産まで)を確実に把握できることを示した。
関連論文リスト
- Can AI Perceive Physical Danger and Intervene? [16.825608691806988]
AIが物理的な世界と対話するとき、新しい安全上の課題が生まれる。
最先端のファンデーションモデルは、物理的な安全性に関する常識的な事実をどの程度理解していますか?
論文 参考訳(メタデータ) (2025-09-25T22:09:17Z) - ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。
すべての安全カテゴリーで攻撃の成功率は50%を超えている。
結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文 参考訳(メタデータ) (2025-09-03T15:00:28Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - Learning to Drive Ethically: Embedding Moral Reasoning into Autonomous Driving [1.2891210250935148]
本稿では,道徳的考察と標準的な運転目標を明確に統合する,階層型セーフ強化学習(Safe RL)フレームワークを提案する。
決定レベルでは、衝突確率と有害度を組み合わせた複合的倫理的リスクコストを用いてセーフRLエージェントを訓練し、高レベルな運動目標を生成する。
実行レベルでは、Proportional-Integral-Derivative(PID)コントローラと組み合わせたパスプランニングが、これらのターゲットをスムーズで実現可能なトラジェクトリに変換する。
論文 参考訳(メタデータ) (2025-08-19T14:24:02Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path? [37.13209023718946]
未確認のAI機関は、公共の安全とセキュリティに重大なリスクをもたらす。
これらのリスクが現在のAIトレーニング方法からどのように生じるかについて議論する。
我々は,非エージェント型AIシステムの開発をさらに進めるために,コアビルディングブロックを提案する。
論文 参考訳(メタデータ) (2025-02-21T18:28:36Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。