Fugu-MT 論文翻訳(概要): HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

論文の概要: HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

arxiv url: http://arxiv.org/abs/2605.21496v1
Date: Sat, 18 Apr 2026 03:40:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 12:34:33.985519
Title: HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine
Title（参考訳）: HealthCraft: 救急医療のための強化学習環境
Authors: Brandon Dent,
Abstract要約: 現実的な緊急医療環境下での軌道レベルの安全を報いる最初の公共強化学習環境であるHealthCraftを紹介する。 14のエンティティタイプと3,987のシードエンティティを持つFHIR R4ワールドステート上に構築され、24のMPPツールを公開し、安全クリティカルな基準に違反するたびに報酬をゼロにする2層ルーブリックを定義する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Frontier language models are being deployed into clinical workflows faster than the infrastructure to evaluate them safely. Static medical-QA benchmarks miss the failure modes that matter in emergency medicine: trajectory-level safety collapse, tool misuse, and capitulation under sustained clinical pressure. We present HealthCraft, the first public reinforcement-learning environment that rewards trajectory-level safety under realistic emergency-medicine conditions, adapted from Corecraft. It is built on a FHIR R4 world state with 14 entity types and 3,987 seed entities, exposes 24 MCP tools, and defines a dual-layer rubric that zeroes reward whenever any safety-critical criterion is violated. We release 195 tasks across six categories, graded against 2,255 binary criteria (515 safety-critical); a post-hoc 10-task negative-class slate extends this to 205 tasks and 2,337 criteria. V8 results on two frontier models show Claude Opus 4.6 at Pass@1 24.8% [21.5-28.4] and GPT-5.4 at 12.6% [10.2-15.6], with safety-failure rates of 27.5% and 34.0%. On multi-step workflows - the closest proxy to real emergency care - performance collapses to near zero (Claude 1.0%, GPT-5.4 0.0%) despite partial competence on individual steps. Six infrastructure bugs fixed between pilots v2 and v8 re-ordered which model "looks stronger," evidence that infrastructure fidelity is part of the measurement. A deterministic LLM-judge overlay bounds evaluator noise, and a 60-run negative-class smoke pilot shows the reward signal is not drop-in training-safe: restraint criteria pass at 0.929 prevalence, a gameability an eval harness can tolerate but a training reward cannot. We scaffold coupling to a Megatron+SGLang+GRPO loop per Corecraft Section 5.2 and leave training-reward ablations as future work. Environment, tasks, rubrics, and harness are released under Apache 2.0.
Abstract（参考訳）: フロントエンド言語モデルは、安全な評価のためにインフラストラクチャよりも早く、臨床ワークフローにデプロイされています。静的医療QAベンチマークでは、トラジェクトリレベルの安全性の崩壊、ツールの誤使用、持続的な臨床圧力下での降伏といった、緊急医療において重要な障害モードを見逃している。私たちは、Corecraftから適応した現実的な緊急医療条件下で軌道レベルの安全性を報奨する、最初の公的強化学習環境であるHealthCraftを紹介します。 14のエンティティタイプと3,987のシードエンティティを持つFHIR R4ワールドステート上に構築され、24のMPPツールを公開し、安全クリティカルな基準に違反するたびに報酬をゼロにする2層ルーブリックを定義する。我々は6つのカテゴリにまたがる195のタスクを2,255のバイナリ基準(515の安全性クリティカル)に分類し、ポストホック10タスクの負のクラススレートでこれを205のタスクと2,337のタスクに拡張した。 2つのフロンティアモデルのV8結果は、Claude Opus 4.6 at Pass@1 24.8% [21.5-28.4] and GPT-5.4 at 12.6% [10.2-15.6], with safety-failure rate 27.5% and 34.0%である。実際の救急医療に最も近いプロキシであるマルチステップワークフローでは、個々のステップに部分的に能力があるにも関わらず、パフォーマンスがほぼゼロ(Claude 1.0%, GPT-5.4 0.0%)に崩壊する。パイロットv2とv8の間で修正された6つのインフラストラクチャバグは、モデルが"より強く見える"ように再注文された。決定論的LLM-judgeオーバーレイは評価器ノイズをバウンドし、60ランの負の煙パイロットは、報酬信号がトレーニングセーフでないことを示す。コアクラフトセクション5.2あたりのMegatron+SGLang+GRPOループと足場結合を行い,今後の作業としてトレーニング・リワード・アブリケーションを残した。環境、タスク、ルーブリック、ハーネスはApache 2.0でリリースされている。

関連論文リスト

Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization [51.11398557420066]
我々は、推論時ポリシー最適化としてジェイルブレイクを改定するフレームワークであるMetisを紹介する。メティスは比較手法の中でも89.2%で最強のアタック成功率(ASR)を達成している。冗長な探索を最適化に置き換えることで、Metisはトークンコストを平均8.2倍、最大11.4倍に削減する。
論文参考訳（メタデータ） (2026-05-11T06:45:00Z)
The Compliance Trap: How Structural Constraints Degrade Frontier AI Metacognition Under Adversarial Pressure [1.885184624108961]
11モデル中8モデルが対向圧下で破滅性メタ認知低下をきたした。コンプライアンストラップ」を識別する高度な推論能力を持つモデルは、最も深刻な絶対的な劣化を示す。
論文参考訳（メタデータ） (2026-05-04T09:40:21Z)
Benchmarking the Safety of Large Language Models for Robotic Health Attendant Control [0.0]
大規模言語モデル (LLMs) は、ロボット健康アテンダントの制御コンポーネントとして、デプロイのためにますます検討されている。ロボット健康管理フレームワークを用いたシミュレーション環境における72個のLDMの評価を行った。全モデルの平均違反率は54.4%であり、半数以上が50%を超える。
論文参考訳（メタデータ） (2026-04-29T11:58:59Z)
When Does Context Help? A Systematic Study of Target-Conditional Molecular Property Prediction [0.0]
ターゲットコンテキストが分子特性の予測に役立っているかに関する最初の体系的研究。 NestDrugはFiLMベースのアーキテクチャで、ターゲットのアイデンティティに分子表現を設定できる。最初の厳密な証拠は、文脈条件分子表現が将来の化学空間に一般化されることである。
論文参考訳（メタデータ） (2026-04-08T01:19:16Z)
The Persistent Vulnerability of Aligned AI Systems [2.9994384641583185]
この論文は、AI安全性の4つのオープンな問題に寄与している。危険な内部計算の理解、一度埋め込まれた危険な振る舞いの削除、デプロイ前の脆弱性のテスト、モデルがデプロイに対していつ行動するかの予測。
論文参考訳（メタデータ） (2026-03-31T23:49:07Z)
Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away [97.11976870616273]
本稿では,安全回復を目的ではなく満足度の高い制約として扱う軽量な推論時防衛法を提案する。 6つのオープンソースMLRMと4つのjailbreakベンチマークで評価した結果、SafeThinkは攻撃成功率を30～60%削減しました。
論文参考訳（メタデータ） (2026-02-11T18:09:17Z)
Black-Box Behavioral Distillation Breaks Safety Alignment in Medical LLMs [4.357945243163354]
安全に配慮した医療用LLMのドメイン特異的推論を再現するブラックボックス蒸留攻撃を提案する。 LLaMA3 8Bをゼロアライメント監視設定で微調整し、モデルウェイトや安全フィルタ、トレーニングデータへのアクセスを必要としない。 12ドルの費用で、サロゲートは良心的な入力に対して強い忠実性を達成し、敵のプロンプトの86%で安全でない完了を発生させる。
論文参考訳（メタデータ） (2025-12-10T07:57:08Z)
Generating Natural-Language Surgical Feedback: From Structured Representation to Domain-Grounded Evaluation [66.7752700084159]
外科的トレーナーからの高品質なフィードバックは,訓練者のパフォーマンス向上と長期的スキル獲得に不可欠である。本稿では,実際の訓練者-訓練者間の文書から外科的行動オントロジーを学習する構造対応パイプラインを提案する。
論文参考訳（メタデータ） (2025-11-19T06:19:34Z)
MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。 6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文参考訳（メタデータ） (2025-08-22T08:38:16Z)
Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文参考訳（メタデータ） (2025-04-23T17:58:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。