論文の概要: TASL-Net: Tri-Attention Selective Learning Network for Intelligent Diagnosis of Bimodal Ultrasound Video
- arxiv url: http://arxiv.org/abs/2409.01557v1
- Date: Tue, 3 Sep 2024 02:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:06:29.228435
- Title: TASL-Net: Tri-Attention Selective Learning Network for Intelligent Diagnosis of Bimodal Ultrasound Video
- Title(参考訳): TASL-Net:バイモーダル超音波映像のインテリジェント診断のための三段階選択学習ネットワーク
- Authors: Chengqian Zhao, Zhao Yao, Zhaoyu Hu, Yuanxin Xie, Yafang Zhang, Yuanyuan Wang, Shuo Li, Jianhua Zhou, Jianqiao Zhou, Yin Wang, Jinhua Yu,
- Abstract要約: 本稿では,この課題に対処するための新しい3段階選択学習ネットワーク(TASL-Net)を提案する。
TASL-Netは、超音波ビデオのインテリジェント診断のための相互変換フレームワークに、ソノグラフィーの3種類の診断注意を組み込む。
肺,乳房,肝臓の3つのデータセット上でTASL-Netの性能を詳細に検証した。
- 参考スコア(独自算出の注目度): 10.087796410298061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the intelligent diagnosis of bimodal (gray-scale and contrast-enhanced) ultrasound videos, medical domain knowledge such as the way sonographers browse videos, the particular areas they emphasize, and the features they pay special attention to, plays a decisive role in facilitating precise diagnosis. Embedding medical knowledge into the deep learning network can not only enhance performance but also boost clinical confidence and reliability of the network. However, it is an intractable challenge to automatically focus on these person- and disease-specific features in videos and to enable networks to encode bimodal information comprehensively and efficiently. This paper proposes a novel Tri-Attention Selective Learning Network (TASL-Net) to tackle this challenge and automatically embed three types of diagnostic attention of sonographers into a mutual transformer framework for intelligent diagnosis of bimodal ultrasound videos. Firstly, a time-intensity-curve-based video selector is designed to mimic the temporal attention of sonographers, thus removing a large amount of redundant information while improving computational efficiency of TASL-Net. Then, to introduce the spatial attention of the sonographers for contrast-enhanced video analysis, we propose the earliest-enhanced position detector based on structural similarity variation, on which the TASL-Net is made to focus on the differences of perfusion variation inside and outside the lesion. Finally, by proposing a mutual encoding strategy that combines convolution and transformer, TASL-Net possesses bimodal attention to structure features on gray-scale videos and to perfusion variations on contrast-enhanced videos. These modules work collaboratively and contribute to superior performance. We conduct a detailed experimental validation of TASL-Net's performance on three datasets, including lung, breast, and liver.
- Abstract(参考訳): バイモーダル(グレースケールでコントラストが強化された)超音波ビデオのインテリジェントな診断において、ソノグラフィーがビデオを見る方法、特に強調する領域、特に注意を払う特徴といった医療領域の知識は、正確な診断を促進する上で決定的な役割を担っている。
深層学習ネットワークに医療知識を組み込むことは、パフォーマンスを高めるだけでなく、ネットワークの信頼性と信頼性を高めることができる。
しかし、ビデオ中のこれらの人や病気特有の機能に自動的にフォーカスし、ネットワークが包括的かつ効率的にバイモーダル情報をエンコードできるようにすることは、難易度の高い課題である。
本稿では, この課題に対処し, 超音波ビデオのインテリジェント診断のための相互変換フレームワークに, ソノグラフィーの3種類の診断注意を自動的に組み込むための, 新たなTri-Attention Selective Learning Network(TASL-Net)を提案する。
まず、時間強度曲線に基づくビデオセレクタは、ソノグラフィーの時間的注意を模倣するように設計され、TASL-Netの計算効率を向上しつつ、大量の冗長情報を除去する。
そこで, コントラスト強調ビデオ解析のためのソノグラフィーの空間的注意を喚起するために, TASL-Netを用いて病変内外における拡散変動の違いに着目した, 構造的類似性の変化に基づく最初期の位置検出法を提案する。
最後に、畳み込みと変圧器を組み合わせた相互符号化戦略を提案することにより、TASL-Netは、グレースケールビデオ上の構造特徴とコントラスト付きビデオ上の拡散変動にバイモーダルな注意を払っている。
これらのモジュールは協調して動作し、優れたパフォーマンスに貢献します。
肺,乳房,肝臓の3つのデータセット上でTASL-Netの性能を詳細に検証した。
関連論文リスト
- OnUVS: Online Feature Decoupling Framework for High-Fidelity Ultrasound
Video Synthesis [34.07625938756013]
ソノグラフィーは、包括的な情報を集めるために対応する動的解剖構造を観察しなければならない。
アメリカのビデオの合成は、この問題に対する有望な解決策になるかもしれない。
我々は,高忠実度USビデオ合成のためのオンライン機能分離フレームワークOnUVSを提案する。
論文 参考訳(メタデータ) (2023-08-16T10:16:50Z) - Inflated 3D Convolution-Transformer for Weakly-supervised Carotid
Stenosis Grading with Ultrasound Videos [12.780908780402516]
自動頸動脈狭窄グレーディング(CSG)のための第1のビデオ分類フレームワークについて紹介する。
弱教師付きCSGのための新しい効果的な映像分類ネットワークを提案する。
本手法は,大容量の頸動脈ビデオデータセットで広く検証されている。
論文 参考訳(メタデータ) (2023-06-05T02:50:06Z) - Focused Decoding Enables 3D Anatomical Detection by Transformers [64.36530874341666]
集束デコーダと呼ばれる3次元解剖学的構造検出のための新しい検出変換器を提案する。
Focused Decoderは、解剖学的領域のアトラスからの情報を活用して、クエリアンカーを同時にデプロイし、クロスアテンションの視野を制限する。
提案手法を利用可能な2つのCTデータセットに対して評価し、フォーカスドデコーダが強力な検出結果を提供するだけでなく、大量の注釈付きデータの必要性を軽減し、注意重みによる結果の例外的で直感的な説明性を示すことを示した。
論文 参考訳(メタデータ) (2022-07-21T22:17:21Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - 2021 BEETL Competition: Advancing Transfer Learning for Subject
Independence & Heterogenous EEG Data Sets [89.84774119537087]
我々は、診断とBCI(Brain-Computer-Interface)に関する2つの伝達学習課題を設計する。
第1タスクは、患者全体にわたる自動睡眠ステージアノテーションに対処する医療診断に重点を置いている。
タスク2はBrain-Computer Interface (BCI)に集中しており、被験者とデータセットの両方にわたる運動画像のデコードに対処する。
論文 参考訳(メタデータ) (2022-02-14T12:12:20Z) - Voice-assisted Image Labelling for Endoscopic Ultrasound Classification
using Neural Networks [48.732863591145964]
本稿では,臨床医が提示した生音声からのEUS画像にラベルを付けるマルチモーダル畳み込みニューラルネットワークアーキテクチャを提案する。
その結果,5つのラベルを持つデータセットにおいて,画像レベルでの予測精度は76%であった。
論文 参考訳(メタデータ) (2021-10-12T21:22:24Z) - Unsupervised multi-latent space reinforcement learning framework for
video summarization in ultrasound imaging [0.0]
新型コロナウイルス(COVID-19)のパンデミックは、超音波スキャンのトリアージを高速化するツールの必要性を強調している。
提案手法は,この方向への一歩である。
そこで我々は,新しい報酬を伴う教師なし強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-03T04:50:35Z) - Cascaded Robust Learning at Imperfect Labels for Chest X-ray
Segmentation [61.09321488002978]
不完全アノテーションを用いた胸部X線分割のための新しいカスケードロバスト学習フレームワークを提案する。
モデルは3つの独立したネットワークから成り,ピアネットワークから有用な情報を効果的に学習できる。
提案手法は,従来の手法と比較して,セグメント化タスクの精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-04-05T15:50:16Z) - Contextual Information Enhanced Convolutional Neural Networks for
Retinal Vessel Segmentation in Color Fundus Images [0.0]
自動網膜血管セグメンテーションシステムは、臨床診断及び眼科研究を効果的に促進することができる。
ディープラーニングベースの手法が提案され、いくつかのカスタマイズされたモジュールが有名なエンコーダデコーダアーキテクチャU-netに統合されている。
その結果,提案手法は先行技術よりも優れ,感性/リコール,F1スコア,MCCの最先端性能を実現している。
論文 参考訳(メタデータ) (2021-03-25T06:10:47Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。