論文の概要: VLM-in-the-Loop: A Plug-In Quality Assurance Module for ECG Digitization Pipelines
- arxiv url: http://arxiv.org/abs/2604.00396v1
- Date: Wed, 01 Apr 2026 02:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.799776
- Title: VLM-in-the-Loop: A Plug-In Quality Assurance Module for ECG Digitization Pipelines
- Title(参考訳): VLM-in-the-Loop:ECGディジタイズパイプラインの品質保証モジュール
- Authors: Jiachen Li, Shihao Li, Soovadeep Bakshi, Wei Li, Dongmei Chen,
- Abstract要約: textbfVLM-in-the-Loopは、任意のデジタル化バックエンドを、標準化されたインターフェースを介してクローズループVLMフィードバックでラップする。
ツールグラウンドリングはVLMアセスメントをドメイン固有の信号分析ツールから定量的に証明する。
428の実際の臨床HCM画像では、統合システムは98.0%の優れた品質に達する。
- 参考スコア(独自算出の注目度): 10.370445498759207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ECG digitization could unlock billions of archived clinical records, yet existing methods collapse on real-world images despite strong benchmark numbers. We introduce \textbf{VLM-in-the-Loop}, a plug-in quality assurance module that wraps any digitization backend with closed-loop VLM feedback via a standardized interface, requiring no modification to the underlying digitizer. The core mechanism is \textbf{tool grounding}: anchoring VLM assessment in quantitative evidence from domain-specific signal analysis tools. In a controlled ablation on 200 records with paired ground truth, tool grounding raises verdict consistency from 71\% to 89\% and doubles fidelity separation ($Δ$PCC 0.03 $\rightarrow$ 0.08), with the effect replicating across three VLMs (Claude Opus~4, GPT-4o, Gemini~2.5 Pro), confirming a pattern-level rather than model-specific gain. Deployed across four backends, the module improves every one: 29.4\% of borderline leads improved on our pipeline; 41.2\% of failed limb leads recovered on ECG-Digitiser; valid leads per image doubled on Open-ECG-Digitizer (2.5 $\rightarrow$ 5.8). On 428 real clinical HCM images, the integrated system reaches 98.0\% Excellent quality. Both the plug-in architecture and tool-grounding mechanism are domain-parametric, suggesting broader applicability wherever quality criteria are objectively measurable.
- Abstract(参考訳): ECGのデジタル化は、何十億ものアーカイブされた臨床記録をアンロックするかもしれない。
プラグイン品質保証モジュールである \textbf{VLM-in-the-Loop} を導入し、任意のディジタル化バックエンドを標準インタフェースを介してクローズループVLMフィードバックでラップし、基礎となるデジタイザを変更する必要はない。
中心となるメカニズムは \textbf{tool grounding} であり、VLMアセスメントをドメイン固有の信号分析ツールの定量的証拠に固定する。
2つの接地真理を持つ200レコードに対する制御されたアブレーションでは、ツールグラウンドリングは、判定一貫性を71\%から89\%に引き上げ、フィデリティ分離($$PCC 0.03 $\rightarrow$ 0.08)を2倍にし、3つのVLM(Claude Opus~4, GPT-4o, Gemini~2.5 Pro)に複製し、モデル固有の利得よりもパターンレベルを確認する。
4つのバックエンドにデプロイされ、モジュールはすべての改善を行う: パイプラインではバウンダリの29.4\%、ECG-Digitiserでは41.2\%、Open-ECG-Digitizer(2.5$\rightarrow$ 5.8)でイメージ毎の有効なリード。
428 の実際の臨床 HCM 画像では、統合システムは98.0 % の優れた品質に達する。
プラグインアーキテクチャとツールグラウンド機構はどちらもドメインパラメトリックであり、品質基準が客観的に測定可能な範囲で適用可能であることを示唆している。
関連論文リスト
- PathGLS: Evaluating Pathology Vision-Language Models without Ground Truth through Multi-Dimensional Consistency [22.13541624406203]
VLM(Vision-Language Models)は、解釈可能な画像解析、自動レポート、スケーラブルな意思決定支援を可能にすることにより、計算病理学において大きな可能性を秘めている。
このギャップに対処するために,3次元にわたる病理VLMを評価する新しい基準フリー評価フレームワークPathGLSを提案する。
The Experiments on Quilt-1M, TCGA, REG2025, PathMMU and TCGA-Sarcoma datasets showed the superiority of PathGLS。
論文 参考訳(メタデータ) (2026-03-17T04:25:55Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - S2M-Net: Spectral-Spatial Mixing for Medical Image Segmentation with Morphology-Aware Adaptive Loss [0.0]
医療画像のセグメンテーションには、境界クリティカルな臨床応用のための局所的精度、解剖学的コヒーレンスのためのグローバルコンテキスト、および既存のアーキテクチャが解決できない限られたデータやハードウェア上のデプロイのための計算効率のバランスが必要である。
我々は,S2M-Netを提案する。S2M-Netは,S2M-Net,S2M-Net,S2M-Net,S2M-Net,S2M-Net,S2M-Net,S2M-Net,S2M-Net,S2M-Net,Morphology-Aware Adaptive Loss(MAS)の2つの相乗的イノベーションを通じて,グローバルなコンテキストを実現するためのアーキテクチャである。
論文 参考訳(メタデータ) (2026-01-03T21:03:54Z) - Uncertainty-Aware Domain Adaptation for Vitiligo Segmentation in Clinical Photographs [4.19421520851419]
治療反応の経時的モニタリングには, 日常的な臨床写真における精査範囲の正確な定量化が不可欠である。
我々は,ISIC 2019データセット上でのドメイン適応型事前学習とROIに基づく二重タスク損失を組み合わせ,背景雑音を抑制するデータ効率のトレーニング戦略を提案する。
本フレームワークは破滅的障害をゼロに高い信頼性を示し,診断可能なエントロピーマップを提供し,臨床検査のための曖昧な領域を同定する。
論文 参考訳(メタデータ) (2025-12-12T18:56:21Z) - GRank: Towards Target-Aware and Streamlined Industrial Retrieval with a Generate-Rank Framework [47.25361445845229]
産業規模のレコメンデータシステムはカスケードパイプラインに依存しており、検索段階では何十億ものアイテムから設定されたハイリコール候補を厳格なレイテンシで返さなければならない。
本稿では,ユーザ中心の検索とターゲット認識学習をシームレスに統一する新しい構造化インデックスフリー検索パラダイムであるGRankを提案する。
論文 参考訳(メタデータ) (2025-10-17T04:15:09Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - VSF-Med:A Vulnerability Scoring Framework for Medical Vision-Language Models [6.390468088226493]
VSF-Medは医療ビジョン言語モデル(VLM)のためのエンドツーエンドの脆弱性修正フレームワークである。
VSF-Medは5000個の放射線画像から3万以上の敵の変種を合成し、単一のコマンドで医療用VLMの再現可能なベンチマークを可能にする。
Llama-3.2-11B-Vision-Instructは、攻撃効果の持続性に対して1.29sigma$をピーク脆弱性として、GPT-4oは0.69sigma$を同じベクトルに対して0.28sigma$をピーク脆弱性として示す。
論文 参考訳(メタデータ) (2025-06-25T02:56:38Z) - GEM: Empowering MLLM for Grounded ECG Understanding with Time Series and Images [44.50428701650495]
GEMは,第1回MLLM統合ECG時系列,第12回リードECG画像,地上および臨床のECG解釈のためのテキストである。
GEMは、3つのコアイノベーションを通じて機能的解析、エビデンス駆動推論、および臨床医のような診断プロセスを可能にする。
基礎心電図理解におけるMLLMの能力を評価するために,臨床動機付けのベンチマークであるグラウンドドECGタスクを提案する。
論文 参考訳(メタデータ) (2025-03-08T05:48:53Z) - QMaxViT-Unet+: A Query-Based MaxViT-Unet with Edge Enhancement for Scribble-Supervised Segmentation of Medical Images [0.0]
医用画像分割のための新しいフレームワークQMaxViT-Unet+を提案する。
このフレームワークはU-Netアーキテクチャ上に構築されており、エンコーダとデコーダはMulti-Axis Vision Transformer (MaxViT)ブロックに置き換えられている。
提案したQMaxViT-Unet+は, 心構造, 大腸ポリープ, 乳癌に焦点を絞った4つの公開データセットで評価した。
論文 参考訳(メタデータ) (2025-02-14T16:56:24Z) - Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure [52.2025114590481]
エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。
これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。
提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。
論文 参考訳(メタデータ) (2024-09-04T16:47:16Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。