論文の概要: Clinically-guided Data Synthesis for Laryngeal Lesion Detection
- arxiv url: http://arxiv.org/abs/2508.06182v1
- Date: Fri, 08 Aug 2025 09:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.186056
- Title: Clinically-guided Data Synthesis for Laryngeal Lesion Detection
- Title(参考訳): 喉頭病変検出のための臨床誘導型データ合成法
- Authors: Chiara Baldini, Kaisar Kushibar, Richard Osuala, Simone Balocco, Oliver Diaz, Karim Lekadir, Leonardo S. Mattos,
- Abstract要約: そこで本研究では,Lyngeal endoscopic image-annotation pairを生成するために,Latent Diffusion Model(LDM)とControlNetアダプタを併用した新しいアプローチを提案する。
提案手法はCADx/eモデルのトレーニングデータセットの拡張に有効であり,喉頭科学における評価プロセスの強化に有効である。
- 参考スコア(独自算出の注目度): 2.573786844054239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although computer-aided diagnosis (CADx) and detection (CADe) systems have made significant progress in various medical domains, their application is still limited in specialized fields such as otorhinolaryngology. In the latter, current assessment methods heavily depend on operator expertise, and the high heterogeneity of lesions complicates diagnosis, with biopsy persisting as the gold standard despite its substantial costs and risks. A critical bottleneck for specialized endoscopic CADx/e systems is the lack of well-annotated datasets with sufficient variability for real-world generalization. This study introduces a novel approach that exploits a Latent Diffusion Model (LDM) coupled with a ControlNet adapter to generate laryngeal endoscopic image-annotation pairs, guided by clinical observations. The method addresses data scarcity by conditioning the diffusion process to produce realistic, high-quality, and clinically relevant image features that capture diverse anatomical conditions. The proposed approach can be leveraged to expand training datasets for CADx/e models, empowering the assessment process in laryngology. Indeed, during a downstream task of detection, the addition of only 10% synthetic data improved the detection rate of laryngeal lesions by 9% when the model was internally tested and 22.1% on out-of-domain external data. Additionally, the realism of the generated images was evaluated by asking 5 expert otorhinolaryngologists with varying expertise to rate their confidence in distinguishing synthetic from real images. This work has the potential to accelerate the development of automated tools for laryngeal disease diagnosis, offering a solution to data scarcity and demonstrating the applicability of synthetic data in real-world scenarios.
- Abstract(参考訳): コンピュータ支援診断 (CADx) と検出システム (CADe) は, 様々な医学領域において大きな進歩を遂げているが, 耳鼻咽喉科などの専門分野においてはまだ応用が限られている。
後者では、現在の評価手法はオペレーターの専門知識に大きく依存しており、病変の多種多様さは診断を複雑にし、かなりのコストとリスクにもかかわらず、生検は金の標準として存続する。
特殊な内視鏡CADx/eシステムにとって重要なボトルネックは、実世界の一般化に十分な可変性を持つ十分な注釈付きデータセットがないことである。
本研究は, 喉頭内視鏡的画像アノテーションペアを生成するために, ControlNet アダプタを併用した潜在拡散モデル (LDM) を用いた新しいアプローチを提案する。
この方法は拡散過程を条件づけてデータ不足に対処し、様々な解剖学的条件を捉えた現実的で高品質で臨床的に関係のある画像特徴を生成する。
提案手法はCADx/eモデルのトレーニングデータセットの拡張に有効であり,喉頭科学における評価プロセスの強化に有効である。
実際、下流での検知作業では、モデルが内部でテストされたときに喉頭病変の検出率が9%向上し、ドメイン外の外部データでは22.1%向上した。
さらに, 5名の専門耳鼻咽喉科医に対して, 生画像と生画像の区別に対する信頼度を評価したところ, 生成画像のリアリズムが評価された。
この研究は、喉頭疾患診断のための自動化ツールの開発を加速し、データの不足に対する解決策を提供し、現実世界のシナリオにおける合成データの適用性を実証する可能性がある。
関連論文リスト
- DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis [7.5173141954286775]
内視鏡的所見と診断結果の両方を含む大規模な消化管病理データセットを構築した。
この設計は、画像特有の特徴をよりよく捉え、生成時のセマンティック一貫性を維持するためにモデルを導く。
臨床関連度は18.7%, 構造的完全性は32.4%改善し, 診断誤差は41.2%減少した。
論文 参考訳(メタデータ) (2025-07-24T14:12:20Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルであるCMSwinKANを提案する。
マルチスケールの特徴を融合させ、対照的な学習戦略を活用することで、CMSwinKANは臨床医の包括的なアプローチを模倣する。
その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文 参考訳(メタデータ) (2025-04-18T15:39:46Z) - Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
人工知能(AI)に基づく合成データ生成は、臨床医学の届け方を変えることができる。
本研究は,無線カプセル内視鏡(WCE)画像を用いた炎症性腸疾患(IBD)の診断における概念実証による医療用SDGの臨床評価に焦点を当てた。
その結果、TIDE-IIは、最先端の生成モデルと比較して品質が向上し、臨床的に可塑性で、非常に現実的なWCE画像を生成することがわかった。
論文 参考訳(メタデータ) (2024-10-31T19:48:50Z) - Inpainting Pathology in Lumbar Spine MRI with Latent Diffusion [4.410798232767917]
病理組織学的特徴をMRIで健全な解剖学的特徴に塗布する効率的な方法を提案する。
腰椎椎間板ヘルニアと中心管狭窄に対し,T2 MRIにて椎間板ヘルニアを挿入する能力について検討した。
論文 参考訳(メタデータ) (2024-06-04T16:47:47Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。