論文の概要: ASF-YOLO: A Novel YOLO Model with Attentional Scale Sequence Fusion for Cell Instance Segmentation
- arxiv url: http://arxiv.org/abs/2312.06458v2
- Date: Fri, 10 May 2024 04:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 20:17:21.514496
- Title: ASF-YOLO: A Novel YOLO Model with Attentional Scale Sequence Fusion for Cell Instance Segmentation
- Title(参考訳): ASF-YOLO:細胞インスタンスセグメンテーションのための意図的スケール・シーケンス・フュージョンを用いた新しいYOLOモデル
- Authors: Ming Kang, Chee-Ming Ting, Fung Fung Ting, Raphaël C. -W. Phan,
- Abstract要約: ASF-YOLO(Attentional Scale Sequence Fusion based You Only Look Once)フレームワークを提案する。
空間的およびスケール的な特徴を組み合わせて、正確で高速なセルインスタンスのセグメンテーションを行う。
ボックスmAPは0.91、マスクmAPは0.887、推論速度は2018 Data Science Bowlのデータセットで47.3 FPSである。
- 参考スコア(独自算出の注目度): 6.502259209532815
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a novel Attentional Scale Sequence Fusion based You Only Look Once (YOLO) framework (ASF-YOLO) which combines spatial and scale features for accurate and fast cell instance segmentation. Built on the YOLO segmentation framework, we employ the Scale Sequence Feature Fusion (SSFF) module to enhance the multi-scale information extraction capability of the network, and the Triple Feature Encoder (TFE) module to fuse feature maps of different scales to increase detailed information. We further introduce a Channel and Position Attention Mechanism (CPAM) to integrate both the SSFF and TPE modules, which focus on informative channels and spatial position-related small objects for improved detection and segmentation performance. Experimental validations on two cell datasets show remarkable segmentation accuracy and speed of the proposed ASF-YOLO model. It achieves a box mAP of 0.91, mask mAP of 0.887, and an inference speed of 47.3 FPS on the 2018 Data Science Bowl dataset, outperforming the state-of-the-art methods. The source code is available at https://github.com/mkang315/ASF-YOLO.
- Abstract(参考訳): 本稿では,ASF-YOLO(Attentional Scale Sequence Fusion based You Only Look Once)フレームワークを提案する。
YOLOセグメンテーションフレームワーク上に構築され,ネットワークのマルチスケール情報抽出能力を高めるためにSSFF(Scale Sequence Feature Fusion)モジュールを使用し,TFE(Triple Feature Encoder)モジュールを用いて異なるスケールの機能マップを融合し,詳細な情報を増やす。
さらに,情報チャネルと空間的位置関連小物体に着目し,検出性能とセグメンテーション性能を向上させるため,SSFFモジュールとTPEモジュールを統合したチャネル・位置アテンション機構(CPAM)を導入する。
2つのセルデータセットに対する実験的検証は、提案したASF-YOLOモデルの顕著なセグメンテーション精度と速度を示す。
ボックスmAPは0.91、マスクmAPは0.887、推論速度は2018 Data Science Bowlのデータセットで47.3 FPSに達し、最先端の手法よりも優れている。
ソースコードはhttps://github.com/mkang315/ASF-YOLOで公開されている。
関連論文リスト
- FA-YOLO: Research On Efficient Feature Selection YOLO Improved Algorithm Based On FMDS and AGMF Modules [0.6047429555885261]
本稿では,FMDSモジュールと適応Gated Multi-branch Focus Fusion Module (AGMFモジュール)を提案する。
FMDSモジュールは、より効率的な動的特徴選択と融合法を、より微細なマルチスケール特徴写像に適用する。
AGMFモジュールは、複数の並列ブランチを使用して、ゲートユニットブランチ、FMDSモジュールブランチ、トリプルトブランチによってキャプチャされた様々な機能の補完的な融合を実行する。
論文 参考訳(メタデータ) (2024-08-29T07:22:16Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection [3.7793767915135295]
本稿では,MAF-YOLOという新しいモデルを提案する。
Multi-Branch Auxiliary FPN (MAFPN) という名前の汎用ネックを持つ新しいオブジェクト検出フレームワークである。
例えばMAF-YOLOのナノバージョンを使用すれば、3.76Mの学習可能なパラメータと10.51GのFLOPでCOCO上の42.4%のAPを達成でき、YOLOv8nを約5.1%上回る。
論文 参考訳(メタデータ) (2024-07-05T09:35:30Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - Multi-scale Feature Aggregation for Crowd Counting [84.45773306711747]
マルチスケール特徴集約ネットワーク(MSFANet)を提案する。
MSFANetは、ショートアグリゲーション(ShortAgg)とスキップアグリゲーション(SkipAgg)の2つの機能アグリゲーションモジュールで構成されている。
論文 参考訳(メタデータ) (2022-08-10T10:23:12Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。