論文の概要: MLMT-CNN for Object Detection and Segmentation in Multi-layer and Multi-spectral Images
- arxiv url: http://arxiv.org/abs/2407.14473v1
- Date: Fri, 19 Jul 2024 17:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 16:45:36.980107
- Title: MLMT-CNN for Object Detection and Segmentation in Multi-layer and Multi-spectral Images
- Title(参考訳): MLMT-CNNによる多層・多スペクトル画像の物体検出とセグメンテーション
- Authors: Majedaldein Almahasneh, Adeline Paiement, Xianghua Xie, Jean Aboudarham,
- Abstract要約: 画像バンド間の依存関係を利用して3次元ARローカライゼーションを生成するマルチタスク深層学習フレームワークを提案する。
我々のフレームワークは、すべてのモードで平均0.72 IoUと0.90 F1スコアを達成する。
- 参考スコア(独自算出の注目度): 4.2623421577291225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precisely localising solar Active Regions (AR) from multi-spectral images is a challenging but important task in understanding solar activity and its influence on space weather. A main challenge comes from each modality capturing a different location of the 3D objects, as opposed to typical multi-spectral imaging scenarios where all image bands observe the same scene. Thus, we refer to this special multi-spectral scenario as multi-layer. We present a multi-task deep learning framework that exploits the dependencies between image bands to produce 3D AR localisation (segmentation and detection) where different image bands (and physical locations) have their own set of results. Furthermore, to address the difficulty of producing dense AR annotations for training supervised machine learning (ML) algorithms, we adapt a training strategy based on weak labels (i.e. bounding boxes) in a recursive manner. We compare our detection and segmentation stages against baseline approaches for solar image analysis (multi-channel coronal hole detection, SPOCA for ARs) and state-of-the-art deep learning methods (Faster RCNN, U-Net). Additionally, both detection a nd segmentation stages are quantitatively validated on artificially created data of similar spatial configurations made from annotated multi-modal magnetic resonance images. Our framework achieves an average of 0.72 IoU (segmentation) and 0.90 F1 score (detection) across all modalities, comparing to the best performing baseline methods with scores of 0.53 and 0.58, respectively, on the artificial dataset, and 0.84 F1 score in the AR detection task comparing to baseline of 0.82 F1 score. Our segmentation results are qualitatively validated by an expert on real ARs.
- Abstract(参考訳): 多スペクトル画像から太陽活動領域(AR)を正確に特定することは、太陽活動とその宇宙気象への影響を理解する上で難しいが重要な課題である。
主な課題は、すべての画像バンドが同じシーンを観察する典型的なマルチスペクトルイメージングのシナリオとは対照的に、3Dオブジェクトの異なる位置をキャプチャする各モードによる。
したがって、この特殊なマルチスペクトルシナリオをマルチ層と呼ぶ。
本稿では、画像バンド間の依存関係を利用して、異なる画像バンド(および物理位置)がそれぞれ独自の結果を持つ3次元ARローカライゼーション(セグメンテーションと検出)を生成するマルチタスク深層学習フレームワークを提案する。
さらに、教師付き機械学習(ML)アルゴリズムをトレーニングするための高密度なARアノテーションを作成することの難しさに対処するために、弱いラベル(つまりバウンディングボックス)に基づいたトレーニング戦略を再帰的に適用する。
我々は,太陽画像解析(マルチチャネルコロナホール検出,AR用SPOCA)と最先端深層学習法(Faster RCNN, U-Net)のベースライン手法と比較した。
さらに、アノテートされたマルチモーダル磁気共鳴画像から作成した同様の空間構成の人工的に生成されたデータに対して、両方の検出第2セグメンテーション段階を定量的に検証する。
本フレームワークは, 平均0.72 IoU(セグメンテーション)と0.90 F1(検出)を, それぞれ0.53と0.58と, ベースライン0.82 F1と比較したAR検出タスクの0.84 F1スコアと比較して, 全モードで平均0.72 IoUと0.90 F1スコアを達成する。
我々のセグメンテーション結果は、実際のARの専門家によって質的に検証されている。
関連論文リスト
- Change Detection Between Optical Remote Sensing Imagery and Map Data via
Segment Anything Model (SAM) [20.985372561774415]
光高解像度画像とOpenStreetMap(OSM)データという2つの主要なリモートセンシングデータソース間の教師なしマルチモーダル変化検出について検討する。
我々はSAMのセグメンテーションプロセスを導くための2つの戦略、すなわち'no-prompt'と'box/mask prompt'メソッドを紹介した。
3つのデータセットの実験結果から,提案手法がより競争力のある結果が得られることが示唆された。
論文 参考訳(メタデータ) (2024-01-17T07:30:52Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Exchange means change: an unsupervised single-temporal change detection
framework based on intra- and inter-image patch exchange [44.845959222180866]
画像内および画像間パッチ交換(I3PE)に基づく教師なし単一時間CDフレームワークを提案する。
I3PEフレームワークは、損傷のない、ラベルなしの単一時間リモートセンシング画像上で、深い変化検出を訓練することができる。
I3PEは教師なしのアプローチよりも優れており、SOTA法では10.65%と6.99%のF1値の改善を実現している。
論文 参考訳(メタデータ) (2023-10-01T14:50:54Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Learning Collision-Free Space Detection from Stereo Images: Homography
Matrix Brings Better Data Augmentation [16.99302954185652]
少数のトレーニングサンプルを使用して、深い畳み込みニューラルネットワーク(DCNN)を訓練することは、依然としてオープンな課題です。
本稿では,dcnnの性能向上に有効なトレーニングデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-12-14T19:14:35Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。