Fugu-MT 論文翻訳(概要): HYATT-Net is Grand: A Hybrid Attention Network for Performant Anatomical Landmark Detection

論文の概要: HYATT-Net is Grand: A Hybrid Attention Network for Performant Anatomical Landmark Detection

arxiv url: http://arxiv.org/abs/2412.06499v2
Date: Mon, 16 Dec 2024 06:00:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.45313
Title: HYATT-Net is Grand: A Hybrid Attention Network for Performant Anatomical Landmark Detection
Title（参考訳）: HYATT-Netは、解剖学的ランドマーク検出のためのハイブリッドアテンションネットワークである
Authors: Xiaoqian Zhou, Zhen Huang, Heqin Zhu, Qingsong Yao, S. Kevin Zhou,
Abstract要約: 医学的画像からの解剖学的ランドマーク検出(ALD)は、幅広い臨床応用に不可欠である。 CNNとTransformerを統合した新しいハイブリッドアーキテクチャを提案する。 5つの多様なデータセットの実験は、最先端のパフォーマンスを示し、精度、堅牢性、効率の既存の手法を超越している。
参考スコア（独自算出の注目度）: 17.290208035331734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Anatomical landmark detection (ALD) from a medical image is crucial for a wide array of clinical applications. While existing methods achieve quite some success in ALD, they often struggle to balance global context with computational efficiency, particularly with high-resolution images, thereby leading to the rise of a natural question: where is the performance limit of ALD? In this paper, we aim to forge performant ALD by proposing a {\bf HY}brid {\bf ATT}ention {\bf Net}work (HYATT-Net) with the following designs: (i) A novel hybrid architecture that integrates CNNs and Transformers. Its core is the BiFormer module, utilizing Bi-Level Routing Attention for efficient attention to relevant image regions. This, combined with Attention Residual Module(ARM), enables precise local feature refinement guided by the global context. (ii) A Feature Fusion Correction Module that aggregates multi-scale features and thus mitigates a resolution loss. Deep supervision with a mean-square error loss on multi-resolution heatmaps optimizes the model. Experiments on five diverse datasets demonstrate state-of-the-art performance, surpassing existing methods in accuracy, robustness, and efficiency. The HYATT-Net provides a promising solution for accurate and efficient ALD in complex medical images. Our codes and data are already released at: \url{https://github.com/ECNUACRush/HYATT-Net}.
Abstract（参考訳）: 医学的画像からの解剖学的ランドマーク検出(ALD)は、幅広い臨床応用に不可欠である。既存の手法はALDでかなりの成功を収めているが、グローバルコンテキストと計算効率、特に高解像度画像とのバランスをとるのに苦労することが多く、その結果、ALDのパフォーマンス限界はどこにあるのか? 本稿では, 以下の設計で, {\bf HY}brid {\bf ATT}ention {\bf Net}work (HYATT-Net)を提案することで, 演奏者ALDを鍛えることを目的とする。 (i)CNNとトランスフォーマーを統合する新しいハイブリッドアーキテクチャ。その中核はBiFormerモジュールであり、関連する画像領域への効率的な注意のためにBi-Level Routing Attentionを利用している。これは、Attention Residual Module(ARM)と組み合わせることで、グローバルコンテキストによってガイドされる正確なローカル機能改善を可能にする。 (ii)マルチスケール特徴を集約する特徴融合補正モジュールにより、分解能損失を緩和する。多分解能ヒートマップにおける平均2乗誤差損失の深い監視はモデルを最適化する。 5つの多様なデータセットの実験は、最先端のパフォーマンスを示し、精度、堅牢性、効率の既存の手法を超越している。 HYATT-Netは、複雑な医療画像において正確で効率的なALDのための有望なソリューションを提供する。私たちのコードとデータは、すでにリリースされています: \url{https://github.com/ECNUACRush/HYATT-Net}。

関連論文リスト

UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction [83.48950950780554]
リモートセンシング画像からの抽出は、複雑な構造変化のために難しい課題である。既存の方法は、セグメンテーションモデルにおけるマルチスケール特徴をキャプチャするために、畳み込みブロックまたは自己アテンションブロックを使用する。高品質なグローバルローカルなビジュアルセマンティクスを活用するために,不確実性集約型グローバルローカルフュージョンネットワーク(UAGLNet)を提案する。
論文参考訳（メタデータ） (2025-12-15T02:59:16Z)
HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。 DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。 3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-09-23T07:32:11Z)
DyGLNet: Hybrid Global-Local Feature Fusion with Dynamic Upsampling for Medical Image Segmentation [8.283216541594284]
DyGLNetは,グローバル機能とローカル機能を動的アップサンプリング機構で融合することにより,効率的かつ正確なセグメンテーションを実現する。 7つの公開データセットの実験では、DyGLNetが既存のメソッドより優れていることが示されている。 DyGLNetは、より少ない複雑さを示し、臨床医用画像解析のための効率的で信頼性の高いソリューションを可能にしている。
論文参考訳（メタデータ） (2025-09-16T07:24:20Z)
Graph-Based Uncertainty Modeling and Multimodal Fusion for Salient Object Detection [12.743278093269325]
動的不確実性伝播とマルチモーダル協調推論ネットワーク(DUP-MCRNet)を提案する。 DUGCは空間意味距離に基づいて構築されたスパースグラフを通じて層間の不確実性を伝播するように設計されている。 MCFは学習可能なモダリティゲーティングウェイトを使用して、RGB、深さ、エッジの特徴の注意マップを重み付けする。
論文参考訳（メタデータ） (2025-08-28T04:31:48Z)
MSLAU-Net: A Hybird CNN-Transformer Network for Medical Image Segmentation [7.826754189244901]
CNNベースの手法とトランスフォーマーベースの手法の両方が、医用画像分割タスクにおいて顕著な成功を収めている。両パラダイムの長所を統合した新しいハイブリッドCNN-Transformerアーキテクチャ MSLAU-Netを提案する。提案したMSLAU-Netには,2つの重要なアイデアが組み込まれている。まず,医療画像からマルチスケール特徴を効率的に抽出する,マルチスケール線形注意(multi-Scale Linear Attention)が導入されている。第二に、マルチレベル特徴集約を行い、空間分解能を復元するトップダウン特徴集約機構を採用する。
論文参考訳（メタデータ） (2025-05-24T18:48:29Z)
HyperDefect-YOLO: Enhance YOLO with HyperGraph Computation for Industrial Defect Detection [12.865603495310328]
HD-YOLOはDAM(Defect Aware Module)とMGNet(Mixed Graph Network)で構成されている。 HGANetはハイパーグラフとアテンション機構を組み合わせて、マルチスケール機能を集約する。 CSF(Cross-Scale Fusion)は、単純な結合や畳み込みではなく、機能を適応的に融合し、処理するために提案されている。
論文参考訳（メタデータ） (2024-12-05T08:38:01Z)
Edge-Enhanced Dilated Residual Attention Network for Multimodal Medical Image Fusion [13.029564509505676]
マルチモーダル・メディカル・イメージ・フュージョン(Multimodal Medical Image fusion)は、様々な画像モダリティからの相補的な情報を統一的な表現に結合する重要なタスクである。深層学習手法は融合性能が著しく向上しているが、既存のCNNベースの手法では、微細なマルチスケールとエッジの特徴を捉えるには不十分である。マルチスケール機能抽出のためのDilated Residual Attention Network Moduleを導入することで,これらの制約に対処する新しいCNNアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-11-18T18:11:53Z)
Prototype Learning Guided Hybrid Network for Breast Tumor Segmentation in DCE-MRI [58.809276442508256]
本稿では,畳み込みニューラルネットワーク(CNN)とトランスフォーマー層を組み合わせたハイブリッドネットワークを提案する。プライベートおよびパブリックなDCE-MRIデータセットの実験結果から,提案したハイブリッドネットワークは最先端の手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2024-08-11T15:46:00Z)
PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。 HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文参考訳（メタデータ） (2024-08-02T09:31:21Z)
Perspective+ Unet: Enhancing Segmentation with Bi-Path Fusion and Efficient Non-Local Attention for Superior Receptive Fields [19.71033340093199]
本稿では,医療画像のセグメンテーションの限界を克服する新しいアーキテクチャであるspective+Unetを提案する。このフレームワークは ENLTB という名前の効率的な非局所トランスフォーマーブロックを組み込んでおり、これはカーネル関数近似を利用して、効率的な長距離依存性キャプチャを行う。 ACDCとデータセットに関する実験結果から,提案したパースペクティブ+Unetの有効性が示された。
論文参考訳（メタデータ） (2024-06-20T07:17:39Z)
Memory-efficient High-resolution OCT Volume Synthesis with Cascaded Amortized Latent Diffusion Models [48.87160158792048]
本稿では,高分解能CTボリュームをメモリ効率よく合成できるCA-LDM(Cascaded amortized Latent diffusion model)を提案する。公開高解像度OCTデータセットを用いた実験により、我々の合成データは、既存の手法の能力を超越した、現実的な高解像度かつグローバルな特徴を持つことが示された。
論文参考訳（メタデータ） (2024-05-26T10:58:22Z)
HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution [6.7341750484636975]
トランスフォーマーベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。本稿では,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-05-08T12:14:34Z)
Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [51.89707241449435]
本稿では,高分解能表現CNNにマルチヘッド自己認識を効率よく組み込むという課題に対処する。本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文参考訳（メタデータ） (2024-03-15T15:47:54Z)
Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文参考訳（メタデータ） (2024-03-15T07:18:43Z)
BEFUnet: A Hybrid CNN-Transformer Architecture for Precise Medical Image Segmentation [0.0]
本稿では,医療画像の正確な分割のために,身体情報とエッジ情報の融合を強化するBEFUnetという,革新的なU字型ネットワークを提案する。 BEFUnetは、新しいローカル・クロス・アテンション・フィーチャー(LCAF)融合モジュール、新しいダブル・レベル・フュージョン(DLF)モジュール、デュアルブランチ・エンコーダの3つの主要モジュールから構成されている。 LCAFモジュールは、2つのモダリティの間に空間的に近接する特徴に対して、局所的な相互注意を選択的に行うことにより、エッジとボディの特徴を効率よく融合させる。
論文参考訳（メタデータ） (2024-02-13T21:03:36Z)
BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation [11.986549780782724]
医用画像の正確な分割作業のために,BRAU-Net++ というハイブリッドで効果的な CNN-Transformer ネットワークを提案する。具体的には、BRAU-Net++は、U字型エンコーダデコーダ構造を設計するために、コアビルディングブロックとしてバイレベルルーティングアテンションを使用する。提案手法は,そのベースラインであるBRAU-Netを含む,最先端の手法を超越した手法である。
論文参考訳（メタデータ） (2024-01-01T10:49:09Z)
Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文参考訳（メタデータ） (2023-12-26T12:56:31Z)
Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文参考訳（メタデータ） (2023-10-22T02:27:02Z)
Recurrent Multi-scale Transformer for High-Resolution Salient Object Detection [68.65338791283298]
Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
論文参考訳（メタデータ） (2023-08-07T17:49:04Z)
Pyramid Grafting Network for One-Stage High Resolution Saliency Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。 CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文参考訳（メタデータ） (2022-04-11T12:22:21Z)
InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文参考訳（メタデータ） (2021-12-23T15:52:37Z)
Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文参考訳（メタデータ） (2021-09-01T07:01:33Z)
Cross-Modality Brain Tumor Segmentation via Bidirectional Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-05-17T10:11:45Z)
Few-shot Medical Image Segmentation using a Global Correlation Network with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文参考訳（メタデータ） (2020-12-10T04:01:07Z)
Hierarchical Dynamic Filtering Network for RGB-D Salient Object Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。本稿では,これらの問題を新たな視点から考察する。我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文参考訳（メタデータ） (2020-07-13T07:59:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。