論文の概要: A transformer boosted UNet for smoke segmentation in complex backgrounds in multispectral LandSat imagery
- arxiv url: http://arxiv.org/abs/2406.13105v1
- Date: Tue, 18 Jun 2024 23:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 23:58:20.463385
- Title: A transformer boosted UNet for smoke segmentation in complex backgrounds in multispectral LandSat imagery
- Title(参考訳): 多スペクトルランドサット画像における複雑な背景における煙分断のための変圧器強化UNet
- Authors: Jixue Liu, Jiuyong Li, Stefan Peters, Liang Zhao,
- Abstract要約: 煙突は、密度、色、照明、雲、干し草、霧などの背景の変化による検出の課題を示す。
本稿では、スペクトルパターンをキャプチャする仮想バンド構成モジュールからなるVTrUNetと呼ばれる新しいセグメンテーションモデルを提案する。
- 参考スコア(独自算出の注目度): 17.098729939840716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many studies have been done to detect smokes from satellite imagery. However, these prior methods are not still effective in detecting various smokes in complex backgrounds. Smokes present challenges in detection due to variations in density, color, lighting, and backgrounds such as clouds, haze, and/or mist, as well as the contextual nature of thin smoke. This paper addresses these challenges by proposing a new segmentation model called VTrUNet which consists of a virtual band construction module to capture spectral patterns and a transformer boosted UNet to capture long range contextual features. The model takes imagery of six bands: red, green, blue, near infrared, and two shortwave infrared bands as input. To show the advantages of the proposed model, the paper presents extensive results for various possible model architectures improving UNet and draws interesting conclusions including that adding more modules to a model does not always lead to a better performance. The paper also compares the proposed model with very recently proposed and related models for smoke segmentation and shows that the proposed model performs the best and makes significant improvements on prediction performances
- Abstract(参考訳): 衛星画像から煙を検出するために多くの研究がなされている。
しかし、これらの手法は複雑な背景から様々な煙を検出するのに依然として有効ではない。
煙突は、密度、色、照明、雲、干し草、霧などの背景、および薄い煙の文脈の性質の変化による検出の課題を示す。
本稿では、スペクトルパターンをキャプチャする仮想バンド構成モジュールと、長距離コンテキストの特徴をキャプチャするトランスフォーマー強化UNetからなる、VTrUNetと呼ばれる新しいセグメンテーションモデルを提案することにより、これらの課題に対処する。
このモデルは赤、緑、青、近赤外線の6つのバンドと2つの短波赤外バンドを入力として撮影する。
提案手法の利点を示すため,UNetを改良した様々なモデルアーキテクチャに対する広範な結果を示すとともに,モデルへのモジュールの追加が必ずしも優れたパフォーマンスをもたらすとは限らない,という興味深い結論を導いた。
また, 提案モデルと最近提案された煙分別モデルを比較し, 提案モデルが最良であることを示すとともに, 予測性能を大幅に向上することを示す。
関連論文リスト
- LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution [1.747623282473278]
複数のモダリティを融合して高解像度の画像を生成するには、数百万のパラメータと重い計算負荷を持つ高密度モデルが必要となることが多い。
熱分解能誘導のためのラプラシア像ピラミッドを用いたマルチモーダル・軽量・生成モデルであるLapGSRを提案する。
論文 参考訳(メタデータ) (2024-11-12T12:23:19Z) - Fine Tuning Text-to-Image Diffusion Models for Correcting Anomalous Images [0.0]
本研究では,DreamBooth法を用いて安定拡散3モデルを微調整することにより,このような問題を緩和する手法を提案する。
SSIM(Structure similarity Index)、Pak Signal-to-Noise Ratio(PSNR)、Frechet Inception Distance(FID)など、視覚的評価の精度向上を示す。
論文 参考訳(メタデータ) (2024-09-23T00:51:47Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - RANRAC: Robust Neural Scene Representations via Random Ray Consensus [12.161889666145127]
RANRAC(RANdom RAy Consensus)は、一貫性のないデータの影響を排除するための効率的な手法である。
我々はRANSACパラダイムのファジィ適応を定式化し、大規模モデルへの適用を可能にした。
その結果, 新規な視点合成のための最先端のロバストな手法と比較して, 顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-12-15T13:33:09Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Breaking Through the Haze: An Advanced Non-Homogeneous Dehazing Method
based on Fast Fourier Convolution and ConvNeXt [14.917290578644424]
ヘイズは通常、低コントラスト、色の変化、構造歪みで劣化した画像につながる。
本稿では、2次元離散ウェーブレット変換(DWT)、高速フーリエ畳み込み(FFC)残差ブロック、事前訓練されたConvNeXtモデルを活用する2つの分岐ネットワークを提案する。
我々のモデルは、グローバルな文脈情報を効果的に探索し、知覚品質の高い画像を生成することができる。
論文 参考訳(メタデータ) (2023-05-08T02:59:02Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Broad-UNet: Multi-scale feature learning for nowcasting tasks [3.9318191265352196]
衛星画像を用いた画像から画像への変換問題として,nowcasting問題を扱う。
我々は,この問題を解決するために,コアUNetモデルに基づく新しいアーキテクチャであるBroad-UNetを紹介した。
提案モデルは2つの異なるnowcastingタスクに適用される。
降水マップおよび雲カバー今のキャスト。
論文 参考訳(メタデータ) (2021-02-12T11:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。