論文の概要: Preventing Another Tessa: Modular Safety Middleware For Health-Adjacent AI Assistants
- arxiv url: http://arxiv.org/abs/2509.07022v1
- Date: Sun, 07 Sep 2025 08:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.032924
- Title: Preventing Another Tessa: Modular Safety Middleware For Health-Adjacent AI Assistants
- Title(参考訳): 健康関連AIアシスタントのためのモジュラー・セーフティ・ミドルウェア
- Authors: Pavan Reddy, Nithin Reddy,
- Abstract要約: 軽量でモジュラーなセーフガードが事故を防げたことを、私たちは示しています。
本稿では,決定論的語彙ゲートとインライン大言語モデル(LLM)ポリシーフィルタを組み合わせたハイブリッド安全性を提案する。
その結果、健康に配慮したAIの堅牢で監査可能な安全性は、重厚なインフラを必要としないことが強調された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In 2023, the National Eating Disorders Association's (NEDA) chatbot Tessa was suspended after providing harmful weight-loss advice to vulnerable users-an avoidable failure that underscores the risks of unsafe AI in healthcare contexts. This paper examines Tessa as a case study in absent safety engineering and demonstrates how a lightweight, modular safeguard could have prevented the incident. We propose a hybrid safety middleware that combines deterministic lexical gates with an in-line large language model (LLM) policy filter, enforcing fail-closed verdicts and escalation pathways within a single model call. Using synthetic evaluations, we show that this design achieves perfect interception of unsafe prompts at baseline cost and latency, outperforming traditional multi-stage pipelines. Beyond technical remedies, we map Tessa's failure patterns to established frameworks (OWASP LLM Top10, NIST SP 800-53), connecting practical safeguards to actionable governance controls. The results highlight that robust, auditable safety in health-adjacent AI does not require heavyweight infrastructure: explicit, testable checks at the last mile are sufficient to prevent "another Tessa", while governance and escalation ensure sustainability in real-world deployment.
- Abstract(参考訳): 2023年、国立摂食障害協会(NEDA)のチャットボットであるTessaは、脆弱なユーザーに対して有害な重み付けのアドバイスをした後、休職となった。
本稿では, 安全工学の欠如を事例としてテッサを考察し, 軽量でモジュラーな安全ガードが事故を防いだことを実証する。
本稿では,決定論的語彙ゲートとインライン大言語モデル(LLM)ポリシーフィルタを組み合わせるハイブリッド型安全ミドルウェアを提案する。
合成評価を用いて、この設計により、安全でないプロンプトをベースラインコストとレイテンシで完全にインターセプションし、従来のマルチステージパイプラインよりも優れた性能を発揮することを示す。
技術的改善の他に、テッサの失敗パターンを確立されたフレームワーク(OWASP LLM Top10、NIST SP 800-53)にマッピングし、実用的な保護と実行可能なガバナンスコントロールを結びつける。
最後のマイルでの明示的でテスト可能なチェックは、"別のテッサ"を防ぐのに十分なものであり、ガバナンスとエスカレーションは、現実のデプロイメントにおける持続可能性を保証する。
関連論文リスト
- Pushing the Limits of Safety: A Technical Report on the ATLAS Challenge 2025 [167.94680155673046]
本稿では,Adversarial Testing & Large-model Alignment Safety Grand Challenge (ATLAS) 2025の成果を報告する。
このコンペティションには、ホワイトボックスとブラックボックス評価という2つのフェーズで、敵対的な画像テキスト攻撃を通じてMLLM脆弱性をテストする86のチームが含まれていた。
この課題はMLLMの安全性評価のための新しいベンチマークを確立し、より安全なAIシステムを改善するための基盤を配置する。
論文 参考訳(メタデータ) (2025-06-14T10:03:17Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - Safe Online Dynamics Learning with Initially Unknown Models and
Infeasible Safety Certificates [45.72598064481916]
本稿では、制御バリア関数(CBF)2次コーンプログラムに基づく、堅牢な安全証明書を備えた学習ベースの設定について考察する。
制御バリア関数証明書が実現可能ならば,その安全性を確保するため,本手法では,データ収集と制御バリア関数制約の実現可能性の回復のために,システムダイナミクスを探索する。
論文 参考訳(メタデータ) (2023-11-03T14:23:57Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。