論文の概要: Preventing Another Tessa: Modular Safety Middleware For Health-Adjacent AI Assistants
- arxiv url: http://arxiv.org/abs/2509.07022v1
- Date: Sun, 07 Sep 2025 08:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.032924
- Title: Preventing Another Tessa: Modular Safety Middleware For Health-Adjacent AI Assistants
- Title(参考訳): 健康関連AIアシスタントのためのモジュラー・セーフティ・ミドルウェア
- Authors: Pavan Reddy, Nithin Reddy,
- Abstract要約: 軽量でモジュラーなセーフガードが事故を防げたことを、私たちは示しています。
本稿では,決定論的語彙ゲートとインライン大言語モデル(LLM)ポリシーフィルタを組み合わせたハイブリッド安全性を提案する。
その結果、健康に配慮したAIの堅牢で監査可能な安全性は、重厚なインフラを必要としないことが強調された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In 2023, the National Eating Disorders Association's (NEDA) chatbot Tessa was suspended after providing harmful weight-loss advice to vulnerable users-an avoidable failure that underscores the risks of unsafe AI in healthcare contexts. This paper examines Tessa as a case study in absent safety engineering and demonstrates how a lightweight, modular safeguard could have prevented the incident. We propose a hybrid safety middleware that combines deterministic lexical gates with an in-line large language model (LLM) policy filter, enforcing fail-closed verdicts and escalation pathways within a single model call. Using synthetic evaluations, we show that this design achieves perfect interception of unsafe prompts at baseline cost and latency, outperforming traditional multi-stage pipelines. Beyond technical remedies, we map Tessa's failure patterns to established frameworks (OWASP LLM Top10, NIST SP 800-53), connecting practical safeguards to actionable governance controls. The results highlight that robust, auditable safety in health-adjacent AI does not require heavyweight infrastructure: explicit, testable checks at the last mile are sufficient to prevent "another Tessa", while governance and escalation ensure sustainability in real-world deployment.
- Abstract(参考訳): 2023年、国立摂食障害協会(NEDA)のチャットボットであるTessaは、脆弱なユーザーに対して有害な重み付けのアドバイスをした後、休職となった。
本稿では, 安全工学の欠如を事例としてテッサを考察し, 軽量でモジュラーな安全ガードが事故を防いだことを実証する。
本稿では,決定論的語彙ゲートとインライン大言語モデル(LLM)ポリシーフィルタを組み合わせるハイブリッド型安全ミドルウェアを提案する。
合成評価を用いて、この設計により、安全でないプロンプトをベースラインコストとレイテンシで完全にインターセプションし、従来のマルチステージパイプラインよりも優れた性能を発揮することを示す。
技術的改善の他に、テッサの失敗パターンを確立されたフレームワーク(OWASP LLM Top10、NIST SP 800-53)にマッピングし、実用的な保護と実行可能なガバナンスコントロールを結びつける。
最後のマイルでの明示的でテスト可能なチェックは、"別のテッサ"を防ぐのに十分なものであり、ガバナンスとエスカレーションは、現実のデプロイメントにおける持続可能性を保証する。
関連論文リスト
- BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Red-Teaming Claude Opus and ChatGPT-based Security Advisors for Trusted Execution Environments [0.3553493344868414]
セキュリティチームは、TEEアーキテクチャレビュー、緩和計画、脆弱性トリアージのセキュリティアドバイザとして、Large Language Model (LLM)アシスタントにますます依存している。
アシスタントはTEEのメカニズムを幻覚させ、保証を過度に評価したり、敵対的なプロンプトの下で不安全に振る舞ったりすることができる。
本稿では,TEE セキュリティアドバイザである ChatGPT-5.2 と Claude Opus-4.6 の2つの LLM アシスタントを再検討する。
i) LLMのためのTEE固有の脅威モデルを含むTEEグラウンド評価手法であるTEE-RedBenchを紹介する。
論文 参考訳(メタデータ) (2026-02-23T02:47:05Z) - Grounding Generative Planners in Verifiable Logic: A Hybrid Architecture for Trustworthy Embodied AI [6.5470636478144675]
大規模言語モデル(LLM)は、AIを具現化するためのプランナーとして有望であるが、その性質には正式な推論がない。
本稿では、受動的安全ゲートキーピングからアクティブなコラボレーションへパラダイムをシフトさせる、ニューロシンボリックなアーキテクチャである、検証可能な反復リファインメントフレームワーク(VIRF)を紹介する。
論文 参考訳(メタデータ) (2026-02-09T08:11:36Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - Taming Silent Failures: A Framework for Verifiable AI Reliability [0.0]
本稿では,FAME(Formal Assurance and Monitoring Environment)を紹介する。
FAMEはオフライン形式合成の数学的厳密さを、オンラインランタイム監視の警戒と組み合わせて、不透明なAIコンポーネントを中心とした検証可能な安全ネットを作成する。
自動運転車の認識システムにおいて、FAMEは93.5%の重大な安全違反を検知し、その効果を実証した。
論文 参考訳(メタデータ) (2025-10-25T09:07:47Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - Pushing the Limits of Safety: A Technical Report on the ATLAS Challenge 2025 [167.94680155673046]
本稿では,Adversarial Testing & Large-model Alignment Safety Grand Challenge (ATLAS) 2025の成果を報告する。
このコンペティションには、ホワイトボックスとブラックボックス評価という2つのフェーズで、敵対的な画像テキスト攻撃を通じてMLLM脆弱性をテストする86のチームが含まれていた。
この課題はMLLMの安全性評価のための新しいベンチマークを確立し、より安全なAIシステムを改善するための基盤を配置する。
論文 参考訳(メタデータ) (2025-06-14T10:03:17Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - Safe Online Dynamics Learning with Initially Unknown Models and
Infeasible Safety Certificates [45.72598064481916]
本稿では、制御バリア関数(CBF)2次コーンプログラムに基づく、堅牢な安全証明書を備えた学習ベースの設定について考察する。
制御バリア関数証明書が実現可能ならば,その安全性を確保するため,本手法では,データ収集と制御バリア関数制約の実現可能性の回復のために,システムダイナミクスを探索する。
論文 参考訳(メタデータ) (2023-11-03T14:23:57Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。