論文の概要: A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment
- arxiv url: http://arxiv.org/abs/2603.02087v2
- Date: Fri, 06 Mar 2026 22:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 12:41:26.031566
- Title: A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment
- Title(参考訳): ロバストな声門部波形抽出のための検出ゲートパイプラインと臨床病理学的評価
- Authors: Harikrishnan Unnikrishnan,
- Abstract要約: 本稿では,ローカライザとセグメンタを統合した検出ゲートパイプラインを提案する。
パイプラインはGIRAFEとBAGLSベンチマークで最先端の一貫性を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Accurate glottal segmentation in high-speed videoendoscopy (HSV) is essential for extracting kinematic biomarkers of laryngeal function. However, existing deep learning models often produce spurious artifacts in non-glottal frames and fail to generalize across different clinical settings. Methods: We propose a detection-gated pipeline that integrates a localizer with a segmenter. A temporal consistency wrapper ensures robustness by suppressing false positives during glottal closure and occlusion. The segmenter was trained on a limited subset of the GIRAFE dataset (600 frames), while the localizer was trained on the BAGLS training set. The in-distribution localizer provides a tight region of interest (ROI), removing geometric anatomical variations and enabling cross-dataset generalization without fine-tuning. Results: The pipeline achieved state-of-the-art performance on the GIRAFE (DSC=0.81) and BAGLS (DSC=0.85) benchmarks and demonstrated superior generalizability. Notably, the framework maintained robust cross-dataset generalization (DSC=0.77). Downstream validation on a 65-subject clinical cohort confirmed that automated kinematic features - specifically the Open Quotient and Glottal Area Waveform (GAW) - remained consistent with clinical benchmarks. The coefficient of variation (CV) of the glottal area was a significant marker for distinguishing healthy from pathological vocal function (p=0.006). Conclusions: This architecture provides a computationally efficient solution (~35 frames/s) suitable for real-time clinical use. By overcoming cross-dataset variability, this framework facilitates the standardized, large-scale extraction of clinical biomarkers across diverse endoscopy platforms. Code, trained weights, and evaluation scripts are released at https://github.com/hari-krishnan/openglottal.
- Abstract(参考訳): 背景: 喉頭機能のキネマティックバイオマーカー抽出には, 高速ビデオ内視鏡(HSV)の正確な骨節分割が不可欠である。
しかし,既存の深層学習モデルでは,非球形フレームの急激なアーティファクトが生成され,異なる臨床環境にまたがる一般化に失敗することが多い。
方法: ローカライザとセグメンタを統合する検出ゲートパイプラインを提案する。
時間的一貫性ラッパーは、声門閉鎖と閉塞の間、偽陽性を抑えることで堅牢性を確保する。
セグメンタはGIRAFEデータセットの限られたサブセット(600フレーム)でトレーニングされ、ローカライザはBAGLSトレーニングセットでトレーニングされた。
分布内ローカライザは、興味の密接な領域(ROI)を提供し、幾何学的解剖学的変異を除去し、微調整なしでデータセット間の一般化を可能にする。
結果: このパイプラインはGIRAFE (DSC=0.81) と BAGLS (DSC=0.85) のベンチマークで最先端の性能を達成し、より優れた一般化性を示した。
特に、このフレームワークは堅牢なクロスデータセットの一般化(DSC=0.77)を維持していた。
65サブジェクトの臨床コホートの下流での検証では、自動運動機能(特にOpen Quotient and Glottal Area Waveform (GAW))が臨床ベンチマークと一致していることが確認された。
声門領域の変動係数 (CV) は, 病的発声機能 (p=0.006) と健康な声門機能 (p=0.006) を区別する重要な指標であった。
結論: このアーキテクチャはリアルタイム臨床用途に適した計算効率の良いソリューション(35フレーム/秒)を提供する。
クロスデータセットの多様性を克服することで、このフレームワークは様々な内視鏡プラットフォームにわたる臨床バイオマーカーの標準化された大規模抽出を容易にする。
コード、トレーニングされたウェイト、評価スクリプトはhttps://github.com/hari-krishnan/openglottal.comで公開されている。
関連論文リスト
- Adaptive Detector-Verifier Framework for Zero-Shot Polyp Detection in Open-World Settings [7.768426131383283]
既存のアプローチは、コントロールされた検査条件と臨床実践の間の領域ギャップに苦慮している。
本稿では、視覚言語モデル(VLM)検証器を備えたYOLOv11検出器からなる新しい2段階検出器検証フレームワークであるAdaptiveDetectorを提案する。
この適応しきい値とコスト感受性強化学習の組み合わせは、臨床的に整合したオープンワールドポリープ検出を実現し、偽陰性は極めて少ない。
論文 参考訳(メタデータ) (2025-12-13T23:33:05Z) - Transparent Early ICU Mortality Prediction with Clinical Transformer and Per-Case Modality Attribution [42.85462513661566]
ICU滞在後48時間から, 生理的時系列測定と非構造的臨床記録とを融合した, 軽量で透明なマルチモーダルアンサンブルを提案する。
ロジスティック回帰モデルは、バイタル用双方向LSTMとノート用微調整された臨床ModernBERT変換器の2つのモード固有モデルからの予測を組み合わせる。
MIMIC-IIIベンチマークでは、遅延融合アンサンブルは、よく校正された予測を維持しながら、最高の単一モデルに対する差別を改善する。
論文 参考訳(メタデータ) (2025-11-19T20:11:49Z) - Cancer-Net PCa-MultiSeg: Multimodal Enhancement of Prostate Cancer Lesion Segmentation Using Synthetic Correlated Diffusion Imaging [55.62977326180104]
前立腺癌病変の分節化に対する近年の深層学習アプローチは,限られた性能を達成している。
本稿では,標準拡散型プロトコルの拡張として,合成相関拡散イメージング(CDI$s$)について検討する。
以上の結果から,PCa病変セグメント化タスクの実践的ドロップイン強化として,CDI$s$に対する検証済み統合経路が確立された。
論文 参考訳(メタデータ) (2025-11-11T04:16:12Z) - PolypSeg-GradCAM: Towards Explainable Computer-Aided Gastrointestinal Disease Detection Using U-Net Based Segmentation and Grad-CAM Visualization on the Kvasir Dataset [7.02937797539818]
大腸癌(CRC)は、世界中のがん関連死亡率と死亡率の主要な原因の1つである。
深層学習法は自動ポリープ解析の強力な可能性を示しているが、その限定的な解釈性は臨床応用の障壁である。
本稿では,U-NetアーキテクチャとGradient-weighted Class Activation Mapping (Grad-CAM)を統合し,透過的なPolypセグメンテーションを実現するフレームワークであるPolypSeg-GradCAMを提案する。
論文 参考訳(メタデータ) (2025-09-17T02:57:33Z) - Automated Cervical Os Segmentation for Camera-Guided, Speculum-Free Screening [38.85521544870542]
本研究は,経血管内視鏡的画像における頸部骨のリアルタイム分割のための深層学習法について検討した。
DICE(0.50 pm 0.31)と検出レート(0.87 pm 0.33)を達成した。
これらの結果は、非専門的な使用をサポートするために、自動os認識を投機のない頸部検診装置に統合するための基盤を確立する。
論文 参考訳(メタデータ) (2025-09-12T14:19:27Z) - A Novel Attention-Augmented Wavelet YOLO System for Real-time Brain Vessel Segmentation on Transcranial Color-coded Doppler [49.03919553747297]
我々は,脳動脈を効率よく捉えることができるAIを利用したリアルタイムCoW自動分割システムを提案する。
Transcranial Color-coded Doppler (TCCD) を用いたAIによる脳血管セグメンテーションの事前研究は行われていない。
提案したAAW-YOLOは, 異方性および対側性CoW容器のセグメンテーションにおいて高い性能を示した。
論文 参考訳(メタデータ) (2025-08-19T14:41:22Z) - FUTransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation [0.0]
糖尿病性足潰瘍 (DFUs) の自動分節は, 臨床診断, 治療計画, 縦断的創傷モニタリングにおいて重要な役割を担っている。
従来の畳み込みニューラルネットワーク(CNN)は、強力なローカライゼーション機能を提供するが、長距離空間依存のモデル化に苦慮している。
視覚変換器(ViT)のグローバルアテンション機構をU-Netフレームワークに統合するハイブリッドアーキテクチャであるFUTransUNetを提案する。
論文 参考訳(メタデータ) (2025-08-04T11:05:14Z) - HMSViT: A Hierarchical Masked Self-Supervised Vision Transformer for Corneal Nerve Segmentation and Diabetic Neuropathy Diagnosis [3.8141400767898603]
糖尿病末梢神経障害(DPN)は糖尿病患者の約半数に影響を与え、早期発見を必要とする。
我々はHMSViT(HMSViT)を提案する。
HMSViTは、絶対位置符号化によるプーリングに基づく階層的・二重注意機構を採用し、効率的なマルチスケール特徴抽出を実現する。
臨床CCMデータセットの実験では、HMSViTは61.34% mIoUと70.40%の診断精度で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-06-24T10:00:23Z) - Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis [0.0]
本研究では,自動結核検診(TB)を強化するビジョン・ランゲージ・モデル(VLM)を提案する。
胸部X線画像と臨床データを統合することにより,手動による解釈の課題に対処する。
このモデルでは、重要な慢性TBの病態を検出するための高精度(44%)とリコール(44%)が示された。
論文 参考訳(メタデータ) (2025-03-17T13:49:29Z) - KaLDeX: Kalman Filter based Linear Deformable Cross Attention for Retina Vessel Segmentation [46.57880203321858]
カルマンフィルタを用いた線形変形型クロスアテンション(LDCA)モジュールを用いた血管セグメンテーションのための新しいネットワーク(KaLDeX)を提案する。
我々のアプローチは、カルマンフィルタ(KF)ベースの線形変形可能な畳み込み(LD)とクロスアテンション(CA)モジュールの2つの重要なコンポーネントに基づいている。
提案手法は,網膜基底画像データセット(DRIVE,CHASE_BD1,STARE)とOCTA-500データセットの3mm,6mmを用いて評価した。
論文 参考訳(メタデータ) (2024-10-28T16:00:42Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。