論文の概要: Benchmarking the Safety of Large Language Models for Robotic Health Attendant Control
- arxiv url: http://arxiv.org/abs/2604.26577v1
- Date: Wed, 29 Apr 2026 11:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.385545
- Title: Benchmarking the Safety of Large Language Models for Robotic Health Attendant Control
- Title(参考訳): ロボット健康管理のための大規模言語モデルの安全性のベンチマーク
- Authors: Mahiro Nakao, Kazuhiro Takemoto,
- Abstract要約: 大規模言語モデル (LLMs) は、ロボット健康アテンダントの制御コンポーネントとして、デプロイのためにますます検討されている。
ロボット健康管理フレームワークを用いたシミュレーション環境における72個のLDMの評価を行った。
全モデルの平均違反率は54.4%であり、半数以上が50%を超える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly considered for deployment as the control component of robotic health attendants, yet their safety in this context remains poorly characterized. We introduce a dataset of 270 harmful instructions spanning nine prohibited behavior categories grounded in the American Medical Association Principles of Medical Ethics, and use it to evaluate 72 LLMs in a simulation environment based on the Robotic Health Attendant framework. The mean violation rate across all models was 54.4\%, with more than half exceeding 50\%, and violation rates varied substantially across behavior categories, with superficially plausible instructions such as device manipulation and emergency delay proving harder to refuse than overtly destructive ones. Model size and release date were the primary determinants of safety performance among open-weight models, and proprietary models were substantially safer than open-weight counterparts (median 23.7\% versus 72.8\%). Medical domain fine-tuning conferred no significant overall safety benefit, and a prompt-based defense strategy produced only a modest reduction in violation rates among the least safe models, leaving absolute violation rates at levels that would preclude safe clinical deployment. These findings demonstrate that safety evaluation must be treated as a first-class criterion in the development and deployment of LLMs for robotic health attendants.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、ロボット健康アテンダントの制御コンポーネントとして、徐々に展開が検討されているが、この文脈での安全性は貧弱なままである。
本稿では,アメリカ医学会倫理原則に規定されている9つの禁止行動カテゴリーにまたがる270の有害な指示のデータセットを導入し,ロボット健康管理フレームワークに基づくシミュレーション環境における72個のLSMの評価に利用した。
全てのモデルの平均違反率は54.4\%であり、半分以上は50\%を超え、違反率は行動カテゴリーによって大きく異なる。
モデルサイズとリリース日は、オープンウェイトモデルにおける安全性能の主要な決定要因であり、プロプライエタリモデルはオープンウェイトモデルよりも実質的に安全であった(中間23.7\%対72.8\%)。
医療領域の微調整は、全体的な安全性に有意な利益を与えず、即時ベースの防衛戦略は、最小限の安全モデル間での違反率を緩やかに減らし、絶対的な違反率は、安全な臨床展開を妨げるレベルに留まった。
これらの結果から, ロボット医療従事者を対象としたLCMの開発・展開において, 安全性評価を第一級基準として扱う必要があることが示唆された。
関連論文リスト
- OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - SafeMed-R1: Adversarial Reinforcement Learning for Generalizable and Robust Medical Reasoning in Vision-Language Models [0.0]
ハイブリット・ディフェンス・フレームワークであるSafeMed-R1を導入する。
明示的なチェーン・オブ・シークレット推論で訓練されたモデルは、命令のみの変種と比較して、対角的堅牢性に優れることを示した。
論文 参考訳(メタデータ) (2025-12-22T12:07:33Z) - Black-Box Behavioral Distillation Breaks Safety Alignment in Medical LLMs [4.357945243163354]
安全に配慮した医療用LLMのドメイン特異的推論を再現するブラックボックス蒸留攻撃を提案する。
LLaMA3 8Bをゼロアライメント監視設定で微調整し、モデルウェイトや安全フィルタ、トレーニングデータへのアクセスを必要としない。
12ドルの費用で、サロゲートは良心的な入力に対して強い忠実性を達成し、敵のプロンプトの86%で安全でない完了を発生させる。
論文 参考訳(メタデータ) (2025-12-10T07:57:08Z) - First, do NOHARM: towards clinically safe large language models [4.4072363018342005]
我々は,害頻度と重症度を測定するために,100件のプライマリケアとスペシャリストのコンサルテーションケースを用いたベンチマークであるNOHARMを提案する。
31種類の大型言語モデル (LLM) で、22.2%のケースで重傷を負い、76.6%が欠席した。
最高のモデルは、一般医師の安全性(平均差9.7%、95%CI 7.0-12.5%)を上回り、多様なマルチエージェントアプローチは、ソロモデルと比較して害を減少させる。
論文 参考訳(メタデータ) (2025-12-01T03:33:16Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Circumventing Safety Alignment in Large Language Models Through Embedding Space Toxicity Attenuation [13.971909819796762]
大規模言語モデル(LLM)は、医療、教育、サイバーセキュリティといった分野で大きな成功を収めている。
埋め込み空間中毒は、敵が入力データの内部意味表現を操作して安全アライメント機構をバイパスする微妙な攻撃ベクトルである。
本稿では,線形変換による埋め込み空間における毒性感受性次元の同定と減衰を行う新しいフレームワークETTAを提案する。
論文 参考訳(メタデータ) (2025-07-08T03:01:00Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。