Fugu-MT 論文翻訳(概要): Transformer-based Multimodal Change Detection with Multitask Consistency Constraints

論文の概要: Transformer-based Multimodal Change Detection with Multitask Consistency Constraints

arxiv url: http://arxiv.org/abs/2310.09276v3
Date: Wed, 17 Apr 2024 03:02:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 19:30:24.076498
Title: Transformer-based Multimodal Change Detection with Multitask Consistency Constraints
Title（参考訳）: マルチタスク整合性制約を用いたトランスフォーマーによるマルチモーダル変化検出
Authors: Biyuan Liu, Huaixin Chen, Kun Li, Michael Ying Yang,
Abstract要約: 現在の変化検出方法は、意味変化検出タスクと高さ変化検出タスクのマルチタスク競合に対処する。そこで我々は,クロスアテンションにより,多次元入力間の共有表現を学習する効率的なトランスフォーマーネットワークを提案する。提案手法は,5つの現状変化検出手法と比較して,意味的および高さ変化検出の観点から,一貫したマルチタスク優位性を示す。
参考スコア（独自算出の注目度）: 10.906283981247796
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Change detection plays a fundamental role in Earth observation for analyzing temporal iterations over time. However, recent studies have largely neglected the utilization of multimodal data that presents significant practical and technical advantages compared to single-modal approaches. This research focuses on leveraging {pre-event} digital surface model (DSM) data and {post-event} digital aerial images captured at different times for detecting change beyond 2D. We observe that the current change detection methods struggle with the multitask conflicts between semantic and height change detection tasks. To address this challenge, we propose an efficient Transformer-based network that learns shared representation between cross-dimensional inputs through cross-attention. {It adopts a consistency constraint to establish the multimodal relationship. Initially, pseudo-changes are derived by employing height change thresholding. Subsequently, the $L2$ distance between semantic and pseudo-changes within their overlapping regions is minimized. This explicitly endows the height change detection (regression task) and semantic change detection (classification task) with representation consistency.} A DSM-to-image multimodal dataset encompassing three cities in the Netherlands was constructed. It lays a new foundation for beyond-2D change detection from cross-dimensional inputs. Compared to five state-of-the-art change detection methods, our model demonstrates consistent multitask superiority in terms of semantic and height change detection. Furthermore, the consistency strategy can be seamlessly adapted to the other methods, yielding promising improvements.
Abstract（参考訳）: 変化検出は、時間とともに時間的反復を分析するために、地球観測において基本的な役割を果たす。しかし、近年の研究では、単一モーダルアプローチと比較して、実用的および技術的優位性を示すマルチモーダルデータの利用をほとんど無視している。本研究では,2次元を超える変化を検出するために,<pre-event>デジタル表面モデル(DSM)データと<post-event>デジタル空中画像を活用することに焦点を当てた。本研究では,現在行われている変化検出手法が,意味変化検出タスクと高さ変化検出タスクのマルチタスク競合に悩まされていることを観察する。この課題に対処するために,クロスアテンションによる多次元入力間の共有表現を学習する,効率的なトランスフォーマーベースネットワークを提案する。これは、マルチモーダル関係を確立するために一貫性制約を採用する。当初、擬似変化は高さ変化閾値を用いて引き起こされる。その後、重複領域内の意味的変化と擬似変化の間の$L2$距離を最小化する。これにより、ハイトチェンジ検出(回帰タスク)とセマンティックチェンジ検出(分類タスク)に表現整合性を持たせることができる。オランダの3都市を対象とするDSM-to-imageマルチモーダルデータセットを構築した。二次元の入力から2次元的変化を検出するための新しい基礎を築いている。提案手法は,5つの現状変化検出手法と比較して,意味的および高さ変化検出の観点から,一貫したマルチタスク優位性を示す。さらに、一貫性戦略は他の手法にシームレスに適応でき、有望な改善をもたらす。

関連論文リスト

SChanger: Change Detection from a Semantic Change and Spatial Consistency Perspective [0.6749750044497732]
我々は,データ不足問題に対処するため,セマンティック・チェンジ・ネットワーク(SCN)と呼ばれる微調整戦略を開発した。両画像間の変化位置は空間的に同一であり,空間的整合性(空間的整合性)の概念である。これにより、マルチスケールな変更のモデリングが強化され、変更検出セマンティクスの基盤となる関係を捉えるのに役立ちます。
論文参考訳（メタデータ） (2025-03-26T17:15:43Z)
ME-CPT: Multi-Task Enhanced Cross-Temporal Point Transformer for Urban 3D Change Detection [10.15947374827254]
多時間ALS点雲を利用することで、都市部の意味的変化を捉えることができる。既存の3D変化検出手法では,マルチクラスの意味情報や変化特徴を効率的に抽出することが困難である。本稿では,Multi-task Enhanced Cross-temporal Point Transformer (ME-CPT) ネットワークを提案する。
論文参考訳（メタデータ） (2025-01-23T13:07:41Z)
Towards Robust and Realistic Human Pose Estimation via WiFi Signals [85.60557095666934]
WiFiベースの人間のポーズ推定は、離散的で微妙なWiFi信号を人間の骨格にブリッジする難しいタスクである。本論文は,本問題を再検討し,(1)ドメイン間ギャップ,(2)ソース・ターゲット領域のポーズ分布の顕著な変化,(2)骨格のポーズが歪んだトポロジーを示す構造的フィデリティギャップ,の2つの重要な問題を明らかにする。本稿では,タスクをDT-Poseと呼ばれる新しい2段階のフレームワークに書き換えることで,これらのギャップを埋める:ドメイン一貫性表現学習とトポロジ制約ポスデコーディング。
論文参考訳（メタデータ） (2025-01-16T09:38:22Z)
Novel Change Detection Framework in Remote Sensing Imagery Using Diffusion Models and Structural Similarity Index (SSIM) [0.0]
変化検出はリモートセンシングにおいて重要な課題であり、環境変化、都市の成長、災害影響のモニタリングを可能にする。近年の機械学習、特に拡散モデルのような生成モデルの発展は、変化検出精度を高める新たな機会を提供する。本稿では,安定拡散モデルの強度と構造類似度指数(SSIM)を組み合わせ,頑健で解釈可能な変化マップを作成する新しい変化検出フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-20T07:54:08Z)
ChangeBind: A Hybrid Change Encoder for Remote Sensing Change Detection [16.62779899494721]
変化検出(CD)は、異なる時刻スタンプで同じ地理的領域間の意味的変化を検出することを目的とした、リモートセンシング(RS)の基本課題である。本稿では,バイテンポラルRS画像における意味変化をエンコードする,効果的なSiameseベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-26T17:47:14Z)
Exchanging Dual Encoder-Decoder: A New Strategy for Change Detection with Semantic Guidance and Spatial Localization [10.059696915598392]
セマンティックガイダンスと空間的ローカライゼーションを用いたバイナリ変更検出のための2つのエンコーダ・デコーダ構造を交換した新しい戦略を提案する。この戦略に基づいてバイナリ変更検出モデルを構築し、それを6つのデータセット上で18の最先端の変更検出手法と比較する。
論文参考訳（メタデータ） (2023-11-19T11:30:43Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)
dual unet:a novel siamese network for change detection with cascade differential fusion [4.651756476458979]
本稿では,変化検出タスク,すなわちDual-UNetのための新しいSiameseニューラルネットワークを提案する。従来のバイテンポラル画像の符号化とは対照的に,画素の空間的差分関係に着目したエンコーダ差分アテンションモジュールを設計する。実験により、提案手法は、一般的な季節変化検出データセットにおいて、常に最も高度な手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-08-12T14:24:09Z)
Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文参考訳（メタデータ） (2022-04-21T02:35:23Z)
Unsupervised Domain Adaptive 3D Detection with Multi-Level Consistency [90.71745178767203]
ディープラーニングに基づく3Dオブジェクト検出は、大規模な自律走行データセットの出現によって、前例のない成功を収めた。既存の3Dドメイン適応検出手法は、しばしばターゲットのドメインアノテーションへの事前アクセスを前提とします。我々は、ソースドメインアノテーションのみを利用する、より現実的な、教師なしの3Dドメイン適応検出について研究する。
論文参考訳（メタデータ） (2021-07-23T17:19:23Z)
Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文参考訳（メタデータ） (2021-04-25T08:24:06Z)
M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文参考訳（メタデータ） (2021-04-20T05:43:44Z)
Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文参考訳（メタデータ） (2020-10-12T13:26:30Z)
DASNet: Dual attentive fully convolutional siamese networks for change detection of high resolution satellite images [17.839181739760676]
研究の目的は、関心の変化情報を識別し、無関係な変更情報を干渉要因としてフィルタリングすることである。近年、ディープラーニングの台頭により、変化検出のための新しいツールが提供され、目覚ましい結果が得られた。我々は,高解像度画像における変化検出のための新しい手法,すなわち,二重注意型完全畳み込みシームズネットワーク(DASNet)を提案する。
論文参考訳（メタデータ） (2020-03-07T16:57:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。