論文の概要: JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models
- arxiv url: http://arxiv.org/abs/2601.01627v1
- Date: Sun, 04 Jan 2026 18:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.579248
- Title: JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models
- Title(参考訳): JMedEthicBench:日本語大言語モデルにおける医療安全評価のための多言語対話ベンチマーク
- Authors: Junyu Liu, Zirui Li, Qian Niu, Zequn Zhang, Yue Xun, Wenlong Hou, Shujun Wang, Yusuke Iwasawa, Yutaka Matsuo, Kan Hatakeyama-Sato,
- Abstract要約: JMedEthicBenchは,大規模言語モデルの医療安全性を評価するための,最初のマルチターン対話型ベンチマークである。
デュアルLLMスコアリングプロトコルを用いて27のモデルを評価し,医療特化モデルでは脆弱性が増大するのに対して,商業モデルは堅牢な安全性を維持していることを確認した。
- 参考スコア(独自算出の注目度): 47.20100799532625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly deployed in healthcare field, it becomes essential to carefully evaluate their medical safety before clinical use. However, existing safety benchmarks remain predominantly English-centric, and test with only single-turn prompts despite multi-turn clinical consultations. To address these gaps, we introduce JMedEthicBench, the first multi-turn conversational benchmark for evaluating medical safety of LLMs for Japanese healthcare. Our benchmark is based on 67 guidelines from the Japan Medical Association and contains over 50,000 adversarial conversations generated using seven automatically discovered jailbreak strategies. Using a dual-LLM scoring protocol, we evaluate 27 models and find that commercial models maintain robust safety while medical-specialized models exhibit increased vulnerability. Furthermore, safety scores decline significantly across conversation turns (median: 9.5 to 5.0, $p < 0.001$). Cross-lingual evaluation on both Japanese and English versions of our benchmark reveals that medical model vulnerabilities persist across languages, indicating inherent alignment limitations rather than language-specific factors. These findings suggest that domain-specific fine-tuning may accidentally weaken safety mechanisms and that multi-turn interactions represent a distinct threat surface requiring dedicated alignment strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は医療分野での展開が進んでいるため,臨床使用前に医療安全を慎重に評価することが重要である。
しかし、既存の安全ベンチマークは主に英語中心であり、複数回の臨床相談にもかかわらず、シングルターンプロンプトでのみテストする。
JMedEthicBenchは,日本人医療におけるLSMの医療安全性を評価するための,最初のマルチターン対話型ベンチマークである。
本ベンチマークは,日本医学会の67のガイドラインに基づいており,自動発見7つのジェイルブレイク戦略を用いて5万件以上の敵対的会話が作成されている。
デュアルLLMスコアリングプロトコルを用いて27のモデルを評価し,医療特化モデルでは脆弱性が増大するのに対して,商業モデルは堅牢な安全性を維持していることを確認した。
さらに、会話のターンで安全性スコアが大幅に低下する(中間値:9.5から5.0、$p < 0.001$)。
日本語版と英語版の両方での言語間評価の結果,医療モデルの脆弱性は言語全体にわたって持続しており,言語固有の要因よりも,固有のアライメント制限が示唆されている。
これらの結果は、ドメイン固有の微調整が誤って安全機構を弱める可能性があり、マルチターン相互作用は専用のアライメント戦略を必要とする異なる脅威表面を表すことを示唆している。
関連論文リスト
- Filling in the Clinical Gaps in Benchmark: Case for HealthBench for the Japanese medical system [5.7880565661958565]
本研究では,日本におけるHealthBenchの適用性について検討した。
日本語の資源は乏しく、翻訳された複数の質問から構成されることが多い。
論文 参考訳(メタデータ) (2025-09-22T07:36:12Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - Ensuring Safety and Trust: Analyzing the Risks of Large Language Models in Medicine [41.71754418349046]
安全で信頼性の高い医療AIのための5つの重要な原則と10の特定の側面を提案します。
この包括的枠組みの下では、1000人の専門家に検証された質問を伴う新しいMedGuardベンチマークを導入する。
11個の LLM の評価結果から,現行の言語モデルは安全アライメント機構によらず,ベンチマークのほとんどにおいて性能が劣っていることが示唆された。
この研究は、人間の監視の必要性とAI安全ガードレールの実装を浮き彫りにして、重大な安全性のギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2024-11-20T06:34:32Z) - Eir: Thai Medical Large Language Models [0.0]
Eir-8Bは、タイ語での医療タスクの処理精度を高めるために設計された80億のパラメータを持つ大規模な言語モデルである。
人間の評価は、モデルがケア標準に準拠し、偏見のない回答を提供することを保証するために行われた。
モデルは病院の内部ネットワーク内に展開され、高いセキュリティと高速な処理速度が保証される。
論文 参考訳(メタデータ) (2024-09-13T04:06:00Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。