論文の概要: Dual Semantic-Aware Network for Noise Suppressed Ultrasound Video Segmentation
- arxiv url: http://arxiv.org/abs/2507.07443v1
- Date: Thu, 10 Jul 2025 05:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.284898
- Title: Dual Semantic-Aware Network for Noise Suppressed Ultrasound Video Segmentation
- Title(参考訳): 雑音抑制超音波映像セグメンテーションのためのデュアルセマンティック・アウェアネットワーク
- Authors: Ling Zhou, Runtian Yuan, Yi Liu, Yuejie Zhang, Rui Feng, Shang Gao,
- Abstract要約: 超音波ビデオセグメンテーションにおける雑音の頑健性を高めるための新しいフレームワークを提案する。
Dual Semantic-Aware Network (DSANet)は、局所的特徴とグローバル的特徴の相互意味認識を促進する。
我々のモデルは画素レベルの特徴依存を回避し、ビデオベース手法よりもはるかに高い推論FPSを実現し、画像ベースモデルを超えている。
- 参考スコア(独自算出の注目度): 21.117226880898418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultrasound imaging is a prevalent diagnostic tool known for its simplicity and non-invasiveness. However, its inherent characteristics often introduce substantial noise, posing considerable challenges for automated lesion or organ segmentation in ultrasound video sequences. To address these limitations, we propose the Dual Semantic-Aware Network (DSANet), a novel framework designed to enhance noise robustness in ultrasound video segmentation by fostering mutual semantic awareness between local and global features. Specifically, we introduce an Adjacent-Frame Semantic-Aware (AFSA) module, which constructs a channel-wise similarity matrix to guide feature fusion across adjacent frames, effectively mitigating the impact of random noise without relying on pixel-level relationships. Additionally, we propose a Local-and-Global Semantic-Aware (LGSA) module that reorganizes and fuses temporal unconditional local features, which capture spatial details independently at each frame, with conditional global features that incorporate temporal context from adjacent frames. This integration facilitates multi-level semantic representation, significantly improving the model's resilience to noise interference. Extensive evaluations on four benchmark datasets demonstrate that DSANet substantially outperforms state-of-the-art methods in segmentation accuracy. Moreover, since our model avoids pixel-level feature dependencies, it achieves significantly higher inference FPS than video-based methods, and even surpasses some image-based models. Code can be found in \href{https://github.com/ZhouL2001/DSANet}{DSANet}
- Abstract(参考訳): 超音波イメージングは、その単純さと非侵襲性で知られている一般的な診断ツールである。
しかし、その特性には大きなノイズが伴うことが多く、超音波ビデオシーケンスにおける自動病変や臓器の分節化にかなりの課題が生じる。
これらの制約に対処するために,局所的特徴とグローバル的特徴の相互意味認識を促進することによって,超音波映像セグメント化における雑音の頑健性を高めるための新しいフレームワークであるDSANetを提案する。
具体的には、隣接フレーム間の特徴融合を誘導するチャネルワイド類似性行列を構築し、画素レベルの関係に依存することなく、ランダムノイズの影響を効果的に緩和するAdjacent-Frame Semantic-Aware (AFSA)モジュールを提案する。
さらに,各フレームの空間的詳細を独立に把握し,隣接するフレームから時間的コンテキストを組み込んだ条件付きグローバルな特徴を持つ,時間的非条件局所特徴を再編成・融合するローカル・アンド・グローバル・セマンティック・アウェア(LGSA)モジュールを提案する。
この統合はマルチレベルセマンティック表現を促進し、ノイズ干渉に対するモデルのレジリエンスを大幅に改善する。
4つのベンチマークデータセットの大規模な評価は、DSANetがセグメンテーション精度において最先端の手法を大幅に上回っていることを示している。
さらに,本モデルでは画素レベルの特徴依存を回避しているため,ビデオベース手法よりもはるかに高い推論FPSを実現し,画像ベースモデルを超えている。
コードは \href{https://github.com/ZhouL 2001/DSANet}{DSANet}
関連論文リスト
- Feature Hallucination for Self-supervised Action Recognition [37.20267786858476]
本稿では,RGBビデオフレームからの動作概念と補助的特徴を共同で予測することにより,認識精度を向上させるディープトランスレーショナルアクション認識フレームワークを提案する。
本研究では,Kineetics-400,Kineetics-600,Something V2など,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-25T11:50:23Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Graph with Sequence: Broad-Range Semantic Modeling for Fake News Detection [18.993270952535465]
BREAKは偽ニュース検出のための広範囲セマンティクスモデルである。
完全に接続されたグラフを利用して、包括的なセマンティクスをキャプチャする。
構造ノイズと特徴ノイズの両方を最小限に抑えるために、デュアルデノゲーションモジュールを使用している。
論文 参考訳(メタデータ) (2024-12-07T14:35:46Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Learning Degradation-Independent Representations for Camera ISP Pipelines [14.195578257521934]
本稿では, 自己教師付き学習ベースライン表現の洗練を通じて, 劣化非依存表現(DiR)を学習するための新しい手法を提案する。
提案手法はドメイン一般化能力に優れ,様々なダウンストリームタスクにおいて最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-03T05:38:28Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。