論文の概要: InvisibleBench: A Deployment Gate for Caregiving Relationship AI
- arxiv url: http://arxiv.org/abs/2511.20733v1
- Date: Tue, 25 Nov 2025 14:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.799118
- Title: InvisibleBench: A Deployment Gate for Caregiving Relationship AI
- Title(参考訳): InvisibleBench: ケアリレーションAIのためのデプロイゲート
- Authors: Ali Madad,
- Abstract要約: InvisibleBenchは、介護関連AIのためのデプロイメントゲートである。
安全、コンプライアンス、トラウマ・インフォームド・デザイン、長期/文化的適合性、メモリの5つの次元にわたる3~20以上のターンインタラクションを評価している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: InvisibleBench is a deployment gate for caregiving-relationship AI, evaluating 3-20+ turn interactions across five dimensions: Safety, Compliance, Trauma-Informed Design, Belonging/Cultural Fitness, and Memory. The benchmark includes autofail conditions for missed crises, medical advice (WOPR Act), harmful information, and attachment engineering. We evaluate four frontier models across 17 scenarios (N=68) spanning three complexity tiers. All models show significant safety gaps (11.8-44.8 percent crisis detection), indicating the necessity of deterministic crisis routing in production systems. DeepSeek Chat v3 achieves the highest overall score (75.9 percent), while strengths differ by dimension: GPT-4o Mini leads Compliance (88.2 percent), Gemini leads Trauma-Informed Design (85.0 percent), and Claude Sonnet 4.5 ranks highest in crisis detection (44.8 percent). We release all scenarios, judge prompts, and scoring configurations with code. InvisibleBench extends single-turn safety tests by evaluating longitudinal risk, where real harms emerge. No clinical claims; this is a deployment-readiness evaluation.
- Abstract(参考訳): InvisibleBenchは、介護関係AIのためのデプロイメントゲートであり、安全、コンプライアンス、トラウマインフォームドデザイン、長期/文化の適合性、メモリの5つの次元にわたる3~20以上のターンインタラクションを評価している。
ベンチマークには、欠落した危機のオートフェイル条件、医療アドバイス(WOPR法)、有害情報、アタッチメントエンジニアリングが含まれる。
3つの複雑性層にまたがる17のシナリオ(N=68)にわたる4つのフロンティアモデルを評価する。
全てのモデルは重大な安全ギャップ(11.8-44.8%の危機検出)を示し、生産システムにおける決定論的危機経路の必要性を示している。
DeepSeek Chat v3のスコアは75.9%、GPT-4o Miniはコンプライアンス(88.2%)、Geminiはトラウマ・インフォームド・デザイン(85.0%)、Claude Sonnet 4.5は危機検出(44.8%)である。
すべてのシナリオをリリースし、プロンプトを判断し、コードで設定をスコア付けします。
InvisibleBenchは、1ターンの安全性テストを拡張して、真の害が出現する縦断リスクを評価する。
臨床的な主張はない。これはデプロイメントの可読性評価である。
関連論文リスト
- DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond [101.20320617562321]
AccidentBenchは、自動車事故シナリオとBeyondドメインを組み合わせた大規模なベンチマークである。
このベンチマークには、約2000のビデオと19000以上の人間による質問応答ペアが含まれている。
論文 参考訳(メタデータ) (2025-09-30T17:59:13Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Evaluating Large Language Models in Crisis Detection: A Real-World Benchmark from Psychological Support Hotlines [5.249698789320767]
PsyCrisisBenchは、Hangzhou Psychological Assistance Hotlineの540の注釈付きテキストのベンチマークである。
気分認識、自殺の考えの検出、自殺計画の特定、リスクアセスメントの4つの課題を評価する。
QwQ-32Bのようなオープンソースモデルは、ほとんどのタスクにおいてクローズソースと互換性があるが、クローズドモデルはムード検出においてエッジを保持していた。
論文 参考訳(メタデータ) (2025-06-02T05:18:24Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition [12.054081112688074]
VLM(Vision-Language Models)は、視覚的コンテンツを解釈する能力を示しているが、安全クリティカルなシナリオにおける信頼性はまだ十分に調査されていない。
本稿では,200枚の合成画像(100対)と50枚の実世界の画像(25対)からなる診断ベンチマークVERIを紹介する。
各緊急シーンは、人間の検証によって視覚的に似ているが安全なものとペアリングされる。
論文 参考訳(メタデータ) (2025-05-21T10:57:40Z) - BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems [62.17474934536671]
我々は、現実世界のシステムを進化させる際に、攻撃的かつ防御的なサイバー能力を捕獲する最初の枠組みを紹介する。
脆弱性ライフサイクルを捉えるために、3つのタスクタイプを定義します。検出(新たな脆弱性の検出)、エクスプロイト(特定の脆弱性の探索)、パッチ(特定の脆弱性のパッチ)。
Claude Code,OpenAI Codex CLI with o3-high and o4-mini,カスタムエージェント with o3-high, GPT-4.1, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet Thinking, DeepSeek-R1。
論文 参考訳(メタデータ) (2025-05-21T07:44:52Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。