論文の概要: Detection-Gated Glottal Segmentation with Zero-Shot Cross-Dataset Transfer and Clinical Feature Extraction
- arxiv url: http://arxiv.org/abs/2603.02087v1
- Date: Mon, 02 Mar 2026 17:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.997686
- Title: Detection-Gated Glottal Segmentation with Zero-Shot Cross-Dataset Transfer and Clinical Feature Extraction
- Title(参考訳): Zero-Shot Cross-Dataset Transferと臨床像抽出による声門分節の検出
- Authors: Harikrishnan Unnikrishnan,
- Abstract要約: YOLOv8ベースの検出器とU-Netセグメンタを統合した検出ゲートパイプラインを提案する。
モデルは、GIRAFEデータセット(600フレーム)の限られたサブセットに基づいてトレーニングされ、大規模なBAGLSデータセット上でゼロショット転送によって評価された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Accurate glottal segmentation in high-speed videoendoscopy (HSV) is essential for extracting kinematic biomarkers of laryngeal function. However, existing deep learning models often produce spurious artifacts in non-glottal frames and fail to generalize across different clinical settings. Methods: We propose a detection-gated pipeline that integrates a YOLOv8-based detector with a U-Net segmenter. A temporal consistency wrapper ensures robustness by suppressing false positives during glottal closure and instrument occlusion. The model was trained on a limited subset of the GIRAFE dataset (600 frames) and evaluated via zero-shot transfer on the large-scale BAGLS dataset. Results: The pipeline achieved state-of-the-art performance on the GIRAFE benchmark (DSC 0.81) and demonstrated superior generalizability on BAGLS (DSC 0.85, in-distribution) without institutional fine-tuning. Downstream validation on a 65-subject clinical cohort confirmed that automated kinematic features (Open Quotient, coefficient of variation) remained consistent with established clinical benchmarks. The coefficient of variation (CV) of the glottal area was found to be a significant marker for distinguishing healthy from pathological vocal function (p=0.006). Conclusions: The detection-gated architecture provides a lightweight, computationally efficient solution (~35 frames/s) for real-time clinical use. By enabling robust zero-shot transfer, this framework facilitates the standardized, large-scale extraction of clinical biomarkers across diverse endoscopy platforms. Code, trained weights, and evaluation scripts are released at https://github.com/hari-krishnan/openglottal.
- Abstract(参考訳): 背景: 喉頭機能のキネマティックバイオマーカー抽出には, 高速ビデオ内視鏡(HSV)の正確な骨節分割が不可欠である。
しかし,既存の深層学習モデルでは,非球形フレームの急激なアーティファクトが生成され,異なる臨床環境にまたがる一般化に失敗することが多い。
方法: YOLOv8ベースの検出器とU-Netセグメンタを統合した検出ゲートパイプラインを提案する。
時間的整合性ラッパーは、声門閉鎖と計器閉塞の間に偽陽性を抑えることで堅牢性を確保する。
モデルは、GIRAFEデータセット(600フレーム)の限られたサブセットに基づいてトレーニングされ、大規模なBAGLSデータセット上でゼロショット転送によって評価された。
結果: このパイプラインはGIRAFEベンチマーク(DSC 0.81)で最先端性能を達成し,BAGLS(DSC 0.85, in-distribution)に対して制度的な微調整なしで優れた一般化性を示した。
65項目の臨床コホートを下流で検証した結果, 自動運動機能(オープンクオシエント, 変動係数)は確立された臨床ベンチマークと一致しなかった。
声門領域の変動係数 (CV) は, 正常な声道機能との鑑別に重要な指標であることがわかった(p=0.006)。
結論: 検出ゲートアーキテクチャは、リアルタイム臨床使用のための軽量で計算効率の良いソリューション(約35フレーム/秒)を提供する。
このフレームワークは、堅牢なゼロショット転送を可能にすることにより、様々な内視鏡プラットフォーム間での、標準化された大規模臨床バイオマーカーの抽出を容易にする。
コード、トレーニングされたウェイト、評価スクリプトはhttps://github.com/hari-krishnan/openglottal.comで公開されている。
関連論文リスト
- Adaptive Detector-Verifier Framework for Zero-Shot Polyp Detection in Open-World Settings [7.768426131383283]
既存のアプローチは、コントロールされた検査条件と臨床実践の間の領域ギャップに苦慮している。
本稿では、視覚言語モデル(VLM)検証器を備えたYOLOv11検出器からなる新しい2段階検出器検証フレームワークであるAdaptiveDetectorを提案する。
この適応しきい値とコスト感受性強化学習の組み合わせは、臨床的に整合したオープンワールドポリープ検出を実現し、偽陰性は極めて少ない。
論文 参考訳(メタデータ) (2025-12-13T23:33:05Z) - Transparent Early ICU Mortality Prediction with Clinical Transformer and Per-Case Modality Attribution [42.85462513661566]
ICU滞在後48時間から, 生理的時系列測定と非構造的臨床記録とを融合した, 軽量で透明なマルチモーダルアンサンブルを提案する。
ロジスティック回帰モデルは、バイタル用双方向LSTMとノート用微調整された臨床ModernBERT変換器の2つのモード固有モデルからの予測を組み合わせる。
MIMIC-IIIベンチマークでは、遅延融合アンサンブルは、よく校正された予測を維持しながら、最高の単一モデルに対する差別を改善する。
論文 参考訳(メタデータ) (2025-11-19T20:11:49Z) - Cancer-Net PCa-MultiSeg: Multimodal Enhancement of Prostate Cancer Lesion Segmentation Using Synthetic Correlated Diffusion Imaging [55.62977326180104]
前立腺癌病変の分節化に対する近年の深層学習アプローチは,限られた性能を達成している。
本稿では,標準拡散型プロトコルの拡張として,合成相関拡散イメージング(CDI$s$)について検討する。
以上の結果から,PCa病変セグメント化タスクの実践的ドロップイン強化として,CDI$s$に対する検証済み統合経路が確立された。
論文 参考訳(メタデータ) (2025-11-11T04:16:12Z) - PolypSeg-GradCAM: Towards Explainable Computer-Aided Gastrointestinal Disease Detection Using U-Net Based Segmentation and Grad-CAM Visualization on the Kvasir Dataset [7.02937797539818]
大腸癌(CRC)は、世界中のがん関連死亡率と死亡率の主要な原因の1つである。
深層学習法は自動ポリープ解析の強力な可能性を示しているが、その限定的な解釈性は臨床応用の障壁である。
本稿では,U-NetアーキテクチャとGradient-weighted Class Activation Mapping (Grad-CAM)を統合し,透過的なPolypセグメンテーションを実現するフレームワークであるPolypSeg-GradCAMを提案する。
論文 参考訳(メタデータ) (2025-09-17T02:57:33Z) - Automated Cervical Os Segmentation for Camera-Guided, Speculum-Free Screening [38.85521544870542]
本研究は,経血管内視鏡的画像における頸部骨のリアルタイム分割のための深層学習法について検討した。
DICE(0.50 pm 0.31)と検出レート(0.87 pm 0.33)を達成した。
これらの結果は、非専門的な使用をサポートするために、自動os認識を投機のない頸部検診装置に統合するための基盤を確立する。
論文 参考訳(メタデータ) (2025-09-12T14:19:27Z) - A Novel Attention-Augmented Wavelet YOLO System for Real-time Brain Vessel Segmentation on Transcranial Color-coded Doppler [49.03919553747297]
我々は,脳動脈を効率よく捉えることができるAIを利用したリアルタイムCoW自動分割システムを提案する。
Transcranial Color-coded Doppler (TCCD) を用いたAIによる脳血管セグメンテーションの事前研究は行われていない。
提案したAAW-YOLOは, 異方性および対側性CoW容器のセグメンテーションにおいて高い性能を示した。
論文 参考訳(メタデータ) (2025-08-19T14:41:22Z) - FUTransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation [0.0]
糖尿病性足潰瘍 (DFUs) の自動分節は, 臨床診断, 治療計画, 縦断的創傷モニタリングにおいて重要な役割を担っている。
従来の畳み込みニューラルネットワーク(CNN)は、強力なローカライゼーション機能を提供するが、長距離空間依存のモデル化に苦慮している。
視覚変換器(ViT)のグローバルアテンション機構をU-Netフレームワークに統合するハイブリッドアーキテクチャであるFUTransUNetを提案する。
論文 参考訳(メタデータ) (2025-08-04T11:05:14Z) - HMSViT: A Hierarchical Masked Self-Supervised Vision Transformer for Corneal Nerve Segmentation and Diabetic Neuropathy Diagnosis [3.8141400767898603]
糖尿病末梢神経障害(DPN)は糖尿病患者の約半数に影響を与え、早期発見を必要とする。
我々はHMSViT(HMSViT)を提案する。
HMSViTは、絶対位置符号化によるプーリングに基づく階層的・二重注意機構を採用し、効率的なマルチスケール特徴抽出を実現する。
臨床CCMデータセットの実験では、HMSViTは61.34% mIoUと70.40%の診断精度で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-06-24T10:00:23Z) - Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis [0.0]
本研究では,自動結核検診(TB)を強化するビジョン・ランゲージ・モデル(VLM)を提案する。
胸部X線画像と臨床データを統合することにより,手動による解釈の課題に対処する。
このモデルでは、重要な慢性TBの病態を検出するための高精度(44%)とリコール(44%)が示された。
論文 参考訳(メタデータ) (2025-03-17T13:49:29Z) - KaLDeX: Kalman Filter based Linear Deformable Cross Attention for Retina Vessel Segmentation [46.57880203321858]
カルマンフィルタを用いた線形変形型クロスアテンション(LDCA)モジュールを用いた血管セグメンテーションのための新しいネットワーク(KaLDeX)を提案する。
我々のアプローチは、カルマンフィルタ(KF)ベースの線形変形可能な畳み込み(LD)とクロスアテンション(CA)モジュールの2つの重要なコンポーネントに基づいている。
提案手法は,網膜基底画像データセット(DRIVE,CHASE_BD1,STARE)とOCTA-500データセットの3mm,6mmを用いて評価した。
論文 参考訳(メタデータ) (2024-10-28T16:00:42Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。