論文の概要: HYATT-Net is Grand: A Hybrid Attention Network for Performant Anatomical Landmark Detection
- arxiv url: http://arxiv.org/abs/2412.06499v2
- Date: Mon, 16 Dec 2024 06:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:08.663156
- Title: HYATT-Net is Grand: A Hybrid Attention Network for Performant Anatomical Landmark Detection
- Title(参考訳): HYATT-Netは、解剖学的ランドマーク検出のためのハイブリッドアテンションネットワークである
- Authors: Xiaoqian Zhou, Zhen Huang, Heqin Zhu, Qingsong Yao, S. Kevin Zhou,
- Abstract要約: 医学的画像からの解剖学的ランドマーク検出(ALD)は、幅広い臨床応用に不可欠である。
CNNとTransformerを統合した新しいハイブリッドアーキテクチャを提案する。
5つの多様なデータセットの実験は、最先端のパフォーマンスを示し、精度、堅牢性、効率の既存の手法を超越している。
- 参考スコア(独自算出の注目度): 17.290208035331734
- License:
- Abstract: Anatomical landmark detection (ALD) from a medical image is crucial for a wide array of clinical applications. While existing methods achieve quite some success in ALD, they often struggle to balance global context with computational efficiency, particularly with high-resolution images, thereby leading to the rise of a natural question: where is the performance limit of ALD? In this paper, we aim to forge performant ALD by proposing a {\bf HY}brid {\bf ATT}ention {\bf Net}work (HYATT-Net) with the following designs: (i) A novel hybrid architecture that integrates CNNs and Transformers. Its core is the BiFormer module, utilizing Bi-Level Routing Attention for efficient attention to relevant image regions. This, combined with Attention Residual Module(ARM), enables precise local feature refinement guided by the global context. (ii) A Feature Fusion Correction Module that aggregates multi-scale features and thus mitigates a resolution loss. Deep supervision with a mean-square error loss on multi-resolution heatmaps optimizes the model. Experiments on five diverse datasets demonstrate state-of-the-art performance, surpassing existing methods in accuracy, robustness, and efficiency. The HYATT-Net provides a promising solution for accurate and efficient ALD in complex medical images. Our codes and data are already released at: \url{https://github.com/ECNUACRush/HYATT-Net}.
- Abstract(参考訳): 医学的画像からの解剖学的ランドマーク検出(ALD)は、幅広い臨床応用に不可欠である。
既存の手法はALDでかなりの成功を収めているが、グローバルコンテキストと計算効率、特に高解像度画像とのバランスをとるのに苦労することが多く、その結果、ALDのパフォーマンス限界はどこにあるのか?
本稿では, 以下の設計で, {\bf HY}brid {\bf ATT}ention {\bf Net}work (HYATT-Net)を提案することで, 演奏者ALDを鍛えることを目的とする。
(i)CNNとトランスフォーマーを統合する新しいハイブリッドアーキテクチャ。
その中核はBiFormerモジュールであり、関連する画像領域への効率的な注意のためにBi-Level Routing Attentionを利用している。
これは、Attention Residual Module(ARM)と組み合わせることで、グローバルコンテキストによってガイドされる正確なローカル機能改善を可能にする。
(ii)マルチスケール特徴を集約する特徴融合補正モジュールにより、分解能損失を緩和する。
多分解能ヒートマップにおける平均2乗誤差損失の深い監視はモデルを最適化する。
5つの多様なデータセットの実験は、最先端のパフォーマンスを示し、精度、堅牢性、効率の既存の手法を超越している。
HYATT-Netは、複雑な医療画像において正確で効率的なALDのための有望なソリューションを提供する。
私たちのコードとデータは、すでにリリースされています: \url{https://github.com/ECNUACRush/HYATT-Net}。
関連論文リスト
- HyperDefect-YOLO: Enhance YOLO with HyperGraph Computation for Industrial Defect Detection [12.865603495310328]
HD-YOLOはDAM(Defect Aware Module)とMGNet(Mixed Graph Network)で構成されている。
HGANetはハイパーグラフとアテンション機構を組み合わせて、マルチスケール機能を集約する。
CSF(Cross-Scale Fusion)は、単純な結合や畳み込みではなく、機能を適応的に融合し、処理するために提案されている。
論文 参考訳(メタデータ) (2024-12-05T08:38:01Z) - PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - Memory-efficient High-resolution OCT Volume Synthesis with Cascaded Amortized Latent Diffusion Models [48.87160158792048]
本稿では,高分解能CTボリュームをメモリ効率よく合成できるCA-LDM(Cascaded amortized Latent diffusion model)を提案する。
公開高解像度OCTデータセットを用いた実験により、我々の合成データは、既存の手法の能力を超越した、現実的な高解像度かつグローバルな特徴を持つことが示された。
論文 参考訳(メタデータ) (2024-05-26T10:58:22Z) - HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution [6.7341750484636975]
トランスフォーマーベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。
本稿では,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。
実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-08T12:14:34Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation [11.986549780782724]
医用画像の正確な分割作業のために,BRAU-Net++ というハイブリッドで効果的な CNN-Transformer ネットワークを提案する。
具体的には、BRAU-Net++は、U字型エンコーダデコーダ構造を設計するために、コアビルディングブロックとしてバイレベルルーティングアテンションを使用する。
提案手法は,そのベースラインであるBRAU-Netを含む,最先端の手法を超越した手法である。
論文 参考訳(メタデータ) (2024-01-01T10:49:09Z) - Recurrent Multi-scale Transformer for High-Resolution Salient Object
Detection [68.65338791283298]
Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。
本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-07T17:49:04Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal
Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。
異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-23T15:52:37Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。