論文の概要: FFA Sora, video generation as fundus fluorescein angiography simulator
- arxiv url: http://arxiv.org/abs/2412.17346v1
- Date: Mon, 23 Dec 2024 07:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:20.002393
- Title: FFA Sora, video generation as fundus fluorescein angiography simulator
- Title(参考訳): フルオレセイン血管造影シミュレータとしてのFFA Sora
- Authors: Xinyuan Wu, Lili Wang, Ruoyu Chen, Bowen Liu, Weiyi Zhang, Xi Yang, Yifan Feng, Mingguang He, Danli Shi,
- Abstract要約: Fundus fluorescein angiography(FFA)は網膜血管疾患の診断に重要である。
本研究では,FFAレポートを動的ビデオに変換するテキスト・ビデオ・モデルであるFFA Soraを開発した。
- 参考スコア(独自算出の注目度): 23.08083653969291
- License:
- Abstract: Fundus fluorescein angiography (FFA) is critical for diagnosing retinal vascular diseases, but beginners often struggle with image interpretation. This study develops FFA Sora, a text-to-video model that converts FFA reports into dynamic videos via a Wavelet-Flow Variational Autoencoder (WF-VAE) and a diffusion transformer (DiT). Trained on an anonymized dataset, FFA Sora accurately simulates disease features from the input text, as confirmed by objective metrics: Frechet Video Distance (FVD) = 329.78, Learned Perceptual Image Patch Similarity (LPIPS) = 0.48, and Visual-question-answering Score (VQAScore) = 0.61. Specific evaluations showed acceptable alignment between the generated videos and textual prompts, with BERTScore of 0.35. Additionally, the model demonstrated strong privacy-preserving performance in retrieval evaluations, achieving an average Recall@K of 0.073. Human assessments indicated satisfactory visual quality, with an average score of 1.570(scale: 1 = best, 5 = worst). This model addresses privacy concerns associated with sharing large-scale FFA data and enhances medical education.
- Abstract(参考訳): Fundus fluorescein angiography (FFA) は網膜血管疾患の診断に重要であるが、初心者は画像解釈に苦慮することが多い。
本研究では,FFAレポートをWavelet-Flow Variational Autoencoder (WF-VAE) と拡散変換器 (DiT) を用いて動的ビデオに変換するテキスト・ビデオモデルであるFFA Soraを開発した。
Frechet Video Distance (FVD) = 329.78, Learned Perceptual Image Patch similarity (LPIPS) = 0.48, Visual-question-anwering Score (VQAScore) = 0.61。
特定の評価は、生成されたビデオとテキストプロンプトの間に許容されるアライメントを示し、BERTScoreは0.35である。
さらに,検索評価において高いプライバシ保存性能を示し,平均 Recall@K 0.073。
人間の評価では視覚的品質が良好で、平均スコアは1.570(スケール: 1 = ベスト, 5 = 最悪)であった。
このモデルは、大規模FFAデータの共有に関連するプライバシー問題に対処し、医療教育を強化する。
関連論文リスト
- Fundus to Fluorescein Angiography Video Generation as a Retinal Generative Foundation Model [13.378309762602095]
本稿では,単一のCF画像から動的FFAビデオを生成するGANモデルであるFundus2Videoを紹介する。
FVDは1497.12、PSNRは11.77である。
これらの結果から,Fundus2VideoはFFA検査の強力な非侵襲的代替品であり,多彩な網膜生成基盤モデルであると考えられた。
論文 参考訳(メタデータ) (2024-10-17T05:53:13Z) - FeDETR: a Federated Approach for Stenosis Detection in Coronary Angiography [0.3823356975862007]
冠動脈狭窄は心不全の根底にある因子である。
冠動脈病変の診断にはいくつかの欠点がある。
深層学習法は、FFR/iFR値の自動推定において、心臓科医を支援するために登場した。
論文 参考訳(メタデータ) (2024-09-21T23:52:05Z) - Breast tumor classification based on self-supervised contrastive learning from ultrasound videos [7.825379326219145]
我々は,胸部超音波ビデオクリップから表現を学習するために,トリプルトネットワークと自己教師付きコントラスト学習手法を採用した。
本モデルでは,受信機動作特性曲線 (AUC) の0.952の領域を達成した。
提案フレームワークはラベル付きデータに対する需要を大幅に減らし,乳房超音波画像の自動診断に活用する可能性を秘めている。
論文 参考訳(メタデータ) (2024-08-20T07:16:01Z) - A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。
アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。
データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文 参考訳(メタデータ) (2023-10-30T11:13:40Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Preserving Privacy in Surgical Video Analysis Using Artificial
Intelligence: A Deep Learning Classifier to Identify Out-of-Body Scenes in
Endoscopic Videos [3.3162899408212922]
内視鏡的映像における身体外シーンの同定は,患者や手術室のスタッフのプライバシーを守る上で重要である。
深層学習モデルは,12種類の腹腔鏡下手術とロボット手術の内的データセットを用いて訓練し,評価した。
論文 参考訳(メタデータ) (2023-01-17T18:09:44Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Self-supervised contrastive learning of echocardiogram videos enables
label-efficient cardiac disease diagnosis [48.64462717254158]
心エコービデオを用いた自己教師型コントラスト学習手法であるエコーCLRを開発した。
左室肥大症 (LVH) と大動脈狭窄症 (AS) の分類成績は,EchoCLR の訓練により有意に改善した。
EchoCLRは、医療ビデオの表現を学習する能力に特有であり、SSLがラベル付きデータセットからラベル効率の高い疾患分類を可能にすることを実証している。
論文 参考訳(メタデータ) (2022-07-23T19:17:26Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Colonoscopy Polyp Detection: Domain Adaptation From Medical Report
Images to Real-time Videos [76.37907640271806]
大腸内視鏡画像と実時間映像の領域間ギャップに対処する画像-ビデオ結合型ポリープ検出ネットワーク(Ivy-Net)を提案する。
収集したデータセットの実験は、Ivy-Netが大腸内視鏡ビデオで最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2020-12-31T10:33:09Z) - PS-DeVCEM: Pathology-sensitive deep learning model for video capsule
endoscopy based on weakly labeled data [0.0]
本稿では, ビデオカプセル内視鏡(VCE)データを用いて, フレームレベルの異常検出と大腸疾患の多ラベル分類を行うための, 病因性深層学習モデル(PS-DeVCEM)を提案する。
我々のモデルは注目に基づく深層マルチインスタンス学習によって駆動され、弱いラベル付きデータでエンドツーエンドに訓練されている。
トレーニング中にフレームアノテーション情報を使わずに、時間的にフレームを病状でローカライズする能力を示す。
論文 参考訳(メタデータ) (2020-11-22T15:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。