論文の概要: Secure On-Premise Deployment of Open-Weights Large Language Models in Radiology: An Isolation-First Architecture with Prospective Pilot Evaluation
- arxiv url: http://arxiv.org/abs/2604.22768v1
- Date: Wed, 25 Mar 2026 17:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.165855
- Title: Secure On-Premise Deployment of Open-Weights Large Language Models in Radiology: An Isolation-First Architecture with Prospective Pilot Evaluation
- Title(参考訳): 放射線学におけるオープンウェイト大規模言語モデルのセキュア・オン・プレミス展開: パイロット評価を先取りした孤立型アーキテクチャ
- Authors: Sebastian Nowak, Jann-Frederick Laß, Narine Mesropyan, Babak Salam, Nico Piel, Mohammed Bahaaeldin, Wolfgang Block, Alois Martin Sprinkart, Julian Alexander Luetkens, Benjamin Wulff, Alexander Isaak,
- Abstract要約: 提案された分離ファーストのオンプレミスアーキテクチャは、規制境界を克服することを可能にする。
このシステムはvLLMを介してオープンウェイトなDeepSeek-R1モデルを提供する。
- 参考スコア(独自算出の注目度): 29.427162122010216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: To design, implement, evaluate, and report on the regulatory requirements of a self-hosted LLM infrastructure for radiology adhering to the principle of least privilege, emphasizing technical feasibility, network isolation, and clinical utility. Materials and Methods: The isolation-first, containerized LLM inference stack relies on strict network segmentation, host-enforced egress filtering, and active isolation monitoring preventing unauthorized external connectivity. An accompanying deployment package provides automated isolation and hardening tests. The system served the open-weights DeepSeek-R1 model via vLLM. In a one-week pilot phase, 22 residents and radiologists were free to use 10 predefined prompt-templates whenever they considered them useful in daily work. Afterward, they rated clinical utility and system stability on an 0-10 Likert scale and reported observed critical errors in model output. Results: The applied institutional governance pathway achieved approval from clinic management, compliance, data protection and information security officers for processing unanonymized PHI. The system was rated stable and user friendly during the pilot. Source text-anchored tasks, such as report corrections or simplifications, and radiology guideline recommendations received the highest utility ratings, whereas open-ended conclusion generation based on findings resulted in the highest frequency of critical errors, such as clinically relevant hallucinations or omissions. Conclusion: The proposed isolation-first on-premise architecture enabled overcoming regulatory borders, showed promising clinical utility in text-anchored tasks and is the current base to serve open-weights LLMs as an official service of a German University Hospital with over 10,000 employees. The deployment package were made publicly available (https://github.com/ukbonn/ukb-gpt).
- Abstract(参考訳): 目的:最小特権の原則に固執し,技術的実現可能性,ネットワーク分離,臨床的有用性を重視した,自己ホスト型LLMインフラの設計,実装,評価,及び放射線学の規制要件の報告を行う。
Materials and Methods: 分離ファーストでコンテナ化されたLLM推論スタックは、厳密なネットワークセグメンテーション、ホスト強化のエグレスフィルタリング、非許可の外部接続を防ぐためのアクティブなアイソレーション監視に依存しています。
付属するデプロイメントパッケージは、自動分離とハードニングテストを提供する。
このシステムはvLLMを介してオープンウェイトなDeepSeek-R1モデルを提供する。
1週間のパイロット期間において、22人の住民と放射線技師は、毎日の作業で役に立つと考えるたびに、事前に定義された10のプロンプトテンプレートを自由に使用できた。
その後,0-10Likertスケールの臨床的有用性およびシステム安定性を評価し,モデル出力の致命的誤差を報告した。
結果:無匿名PHI処理のための診療所管理,コンプライアンス,データ保護,情報セキュリティ担当者の承認を得た。
システムは安定しており、パイロットの間はユーザーフレンドリーだった。
報告の修正や簡易化、放射線学ガイドラインの勧告などの原文編集作業は、最も有効性の高い評価を受けたのに対し、発見に基づくオープンエンドの結論生成は、臨床的に関連する幻覚や欠落などの致命的なエラーの頻度が最も高い結果となった。
結論: 提案された分離ファーストのオンプレミスアーキテクチャは,規制境界を克服し,テキスト編集作業において有望な臨床的有用性を示し,ドイツ大学病院の1万人以上の職員を対象とした公式サービスとして,オープンウェイトLSMを提供するための現在の基盤である。
デプロイメントパッケージが公開された(https://github.com/ukbonn/ukb-gpt)。
関連論文リスト
- Statistics, Not Scale: Modular Medical Dialogue with Bayesian Belief Engine [51.722324399751294]
大規模言語モデルは、自律的な診断エージェントとしてますますデプロイされているが、基本的に異なる2つの機能を説明する。
本稿では,言語と推論を厳格に分離するモジュール型診断対話フレームワークBMBEを紹介する。
論文 参考訳(メタデータ) (2026-04-21T21:59:57Z) - Toward Zero-Egress Psychiatric AI: On-Device LLM Deployment for Privacy-Preserving Mental Health Decision Support [3.560737321459875]
プライバシは、メンタルヘルスケアにおけるAI採用の障壁として最も重要でありながら、最も深刻なもののひとつだ。
既存のAI対応の精神診断支援システムは、クラウドベースの推論パイプラインに依存している。
プライバシ保護型精神科的意思決定支援のためのゼロ・エグレス・オン・デバイスAIプラットフォームを提案する。
論文 参考訳(メタデータ) (2026-04-20T14:09:01Z) - Adoption and Effectiveness of AI-Based Anomaly Detection for Cross Provider Health Data Exchange [0.0]
本研究は,説明可能性と継続的監視によって支援された,優先順位付けのためのカバレッジルールと機械学習を組み合わせた,段階的なデプロイメント戦略を提案する。
その結果、ルールベースの手法は高いリコールを実現するが、高い警告量を生成する一方、分離林は低感度で警報負担を軽減していることがわかった。
論文 参考訳(メタデータ) (2026-03-19T15:22:02Z) - PREBA: Surgical Duration Prediction via PCA-Weighted Retrieval-Augmented LLMs and Bayesian Averaging Aggregation [51.96735866702332]
PreBAはPCA重み付き検索とベイズ平均アグリゲーションを統合した検索拡張フレームワークである。
例えば、PreBAはパフォーマンスを大幅に改善し、MAEを最大40%削減し、ゼロショット推論でR2を-0.13から0.62に引き上げる。
論文 参考訳(メタデータ) (2026-02-27T07:19:23Z) - ClinAlign: Scaling Healthcare Alignment from Clinician Preference [46.61989657665566]
今回,HealthRubricsについて紹介する。
119は広く再利用され、臨床的に根ざした原則である。
私たちのフレームワークでトレーニングされた30B-A3BモデルはHealthBench-Hardで33.4%を達成した。
論文 参考訳(メタデータ) (2026-02-10T11:02:57Z) - A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks [1.2773749417703923]
ジェネラリストモデルは一貫して臨床ツールより優れていた。
OpenEvidenceとUpToDate Expert AIは、完全性、コミュニケーション品質、コンテキスト認識、システムベースの安全性推論の欠陥を実証した。
論文 参考訳(メタデータ) (2025-12-01T02:14:43Z) - Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation [3.952186976672079]
本稿では,高速エンジニアリングや小型微調整を含む軽量な介入により,探索手法の計算オーバーヘッドを伴わずに精度を向上できることを示す。
階層的なニアミスエラーに対処するために,単体タスクとパイプラインコンポーネントの両方に臨床コード検証を導入する。
論文 参考訳(メタデータ) (2025-10-08T23:50:58Z) - MedPAO: A Protocol-Driven Agent for Structuring Medical Reports [0.13029689752120577]
我々は、精度と検証可能な推論を保証する新しいエージェントフレームワークであるMedPAOを紹介する。
MedPAOは、レポート構造化タスクをPlan-Act-Observe (PAO)ループと特殊なツールによって管理される透明なプロセスに分解する。
MedPAOは概念分類の重要なサブタスクに対して0.96のF1スコアを達成する。
論文 参考訳(メタデータ) (2025-10-06T09:32:23Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。