論文の概要: PlankFormer: Robust Plankton Instance Segmentation via MAE-Pretrained Vision Transformers and Pseudo Community Image Generation
- arxiv url: http://arxiv.org/abs/2604.17856v1
- Date: Mon, 20 Apr 2026 06:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.723122
- Title: PlankFormer: Robust Plankton Instance Segmentation via MAE-Pretrained Vision Transformers and Pseudo Community Image Generation
- Title(参考訳): PlankFormer: MAE-Pretrained Vision Transformerと擬似コミュニティ画像生成によるロバストプランクトンインスタンスセグメンテーション
- Authors: Masaharu Miyazaki, Yurie Otake, Koichi Ito, Wataru Makino, Jotaro Urabe, Takafumi Aoki,
- Abstract要約: プランクトンは水生生態系を評価するのに不可欠であるが、顕微鏡分析の労働集約性によって制限されている。
混雑した画像からのプランクトンのセグメンテーションは極めて重要であるが、2つの大きな課題に直面している。
プランクトンインスタンスセグメンテーションのための新しいフレームワークであるPlankFormerを提案する。
- 参考スコア(独自算出の注目度): 1.2314765641075438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Plankton monitoring is essential for assessing aquatic ecosystems but is limited by the labor-intensive nature of manual microscopic analysis. Automating the segmentation of plankton from crowded images is crucial, however, it faces two major challenges: (i) the scarcity of pixel-level annotated datasets and (ii) the difficulty of distinguishing plankton from debris and overlapping individuals using conventional CNN-based methods. To address these issues, we propose PlankFormer, a novel framework for plankton instance segmentation. First, to overcome the data shortage, we introduce a method to generate labeled Pseudo Community Images (PCI) by synthesizing individual plankton images onto diverse backgrounds, including those created by generative models. Second, we propose a segmentation model utilizing a Vision Transformer (ViT) backbone with a Mask2Former decoder. To robustly capture the global structural features of plankton against occlusion and debris, we employ a Masked Autoencoder (MAE) for self-supervised pre-training on unlabeled individual images. Experimental results on real-world datasets demonstrate that our method significantly outperforms conventional methods, such as Mask R-CNN, particularly in challenging environments with high debris density. We demonstrate that our synthetic training strategy and MAE-based architecture enable high-precision segmentation with requiring less manual annotations for individual plankton images.
- Abstract(参考訳): プランクトンモニタリングは水生生態系を評価するのに不可欠であるが、手動顕微鏡解析の労働集約性によって制限される。
混雑した画像からプランクトンのセグメンテーションを自動化することは重要だが、2つの大きな課題に直面している。
一 画素レベルの注釈付きデータセットの不足
(2)従来のCNN法を用いて,プランクトンを破片と重なり合う個体と区別することが困難である。
これらの問題に対処するため、Planktonインスタンスセグメンテーションのための新しいフレームワークであるPlankFormerを提案する。
まず、データ不足を克服するため、各プランクトン画像を生成モデルなど様々な背景に合成し、ラベル付きPseudo Community Images(PCI)を生成する手法を提案する。
第2に、視覚変換器(ViT)のバックボーンとMask2Formerデコーダを用いたセグメンテーションモデルを提案する。
本研究では, プランクトンのグローバルな構造的特徴を隠蔽や破片に対して強く捉えるために, 非ラベル画像の自己教師付き事前学習にMasked Autoencoder (MAE) を用いる。
実世界のデータセットを用いた実験結果から,Mask R-CNNなどの従来の手法,特に破片密度の高い環境において,本手法が顕著に優れていることが示された。
筆者らの総合学習戦略とMAEに基づくアーキテクチャは,個々のプランクトン画像に対する手作業によるアノテーションを少なくして高精度なセグメンテーションを可能にすることを実証する。
関連論文リスト
- Cross-modal learning for plankton recognition [7.782757108520769]
本稿では,マルチモーダルをプランクトン認識に活用するための戦略として,自己監督型クロスモーダルコーディネートを考察する。
提案手法は,最小限のラベル付き画像しか必要とせず,高い認識精度を実現する。
論文 参考訳(メタデータ) (2026-03-17T12:04:52Z) - UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass [83.7071371474926]
UniSHは、統合されたフィードフォワードフレームワークで、共同でメートルスケールの3Dシーンと人間の再構築を行う。
我々のフレームワークは、シーン再構築とHMRとの違いを強く橋渡しします。
本モデルは,人間中心のシーン再構築における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-01-03T16:06:27Z) - Expose Camouflage in the Water: Underwater Camouflaged Instance Segmentation and Dataset [76.92197418745822]
カモフラージュされたインスタンスセグメンテーション(CIS)は、周囲と密接に融合したオブジェクトを正確にセグメンテーションする際の大きな課題に直面します。
従来のカモフラージュされたインスタンスセグメンテーション法は、水中のサンプルが限られている地球上で支配的なデータセットに基づいて訓練されており、水中のシーンでは不十分な性能を示す可能性がある。
本研究は,海中カモフラージュされた海洋生物の3,953枚の画像とインスタンスレベルのアノテーションを含む,最初の水中カモフラージュされたインスタンスセグメンテーションデータセットUCIS4Kを紹介する。
論文 参考訳(メタデータ) (2025-10-20T14:34:51Z) - Self-Supervised Pretraining for Fine-Grained Plankton Recognition [0.11309478649967238]
プランクトン認識は、海洋食物網や炭素捕獲においてプランクトンが重要な役割を担っているため、重要なコンピュータビジョン問題である。
本研究では,プランクトン認識のための大規模自己教師型プレトレーニングについて検討する。
論文 参考訳(メタデータ) (2025-03-14T12:15:20Z) - Image-Based Relocalization and Alignment for Long-Term Monitoring of Dynamic Underwater Environments [57.59857784298534]
本稿では,視覚的位置認識(VPR),特徴マッチング,画像分割を組み合わせた統合パイプラインを提案する。
本手法は, 再検討領域のロバスト同定, 剛性変換の推定, 生態系変化の下流解析を可能にする。
論文 参考訳(メタデータ) (2025-03-06T05:13:19Z) - MPT: A Large-scale Multi-Phytoplankton Tracking Benchmark [36.37530623015916]
本稿では,様々な背景情報と観測時の動作変化を網羅するベンチマークデータセットであるMultiple Phytoplankton Tracking (MPT)を提案する。
このデータセットには27種類の植物プランクトンと動物プランクトンが含まれ、14種類の背景があり、多様な複雑な水中環境をシミュレートしている。
標準特徴抽出器の出力残量を予測するための追加特徴抽出器を導入し、抽出器の異なる層の特徴に基づいて多スケールのフレーム間類似性を計算した。
論文 参考訳(メタデータ) (2024-10-22T04:57:28Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Efficient Unsupervised Learning for Plankton Images [12.447149371717]
水生生態系の保全には,シチューにおけるプランクトン群集のモニタリングが不可欠である。
このようなデータを分類するための機械学習アルゴリズムの採用は、手動アノテーションの大幅なコストに影響される可能性がある。
プランクトン微生物の正確な分類を行うために,効率的な教師なし学習パイプラインを提案する。
論文 参考訳(メタデータ) (2022-09-14T15:33:16Z) - Towards Generating Large Synthetic Phytoplankton Datasets for Efficient
Monitoring of Harmful Algal Blooms [77.25251419910205]
有害な藻類(HAB)は養殖農場で重大な魚死を引き起こす。
現在、有害藻や他の植物プランクトンを列挙する標準的な方法は、顕微鏡でそれらを手動で観察し数えることである。
合成画像の生成にはGAN(Generative Adversarial Networks)を用いる。
論文 参考訳(メタデータ) (2022-08-03T20:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。