論文の概要: TERDNet: Transformer Encoder-Recurrent Decoder Network for Scene Change Detection
- arxiv url: http://arxiv.org/abs/2605.20822v1
- Date: Wed, 20 May 2026 07:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.547924
- Title: TERDNet: Transformer Encoder-Recurrent Decoder Network for Scene Change Detection
- Title(参考訳): TERDNet:シーン変更検出のためのトランスフォーマーエンコーダ・リカレントデコーダネットワーク
- Authors: Jiae Yoon, Ue-Hwan Kim,
- Abstract要約: SCD(Scene Change Detection)は、異なる時間に撮影された同じ位置の2つの画像の違いを特定することを目的としている。
既存のSCDモデルは、レイヤ間の機能の重要性の相違を見落とし、精細化を抑えるシングルステップデコーダを採用し、エンコーダの事前訓練戦略に関する限られた洞察を提供する。
本稿では,これらの制限を克服するために,トランスフォーマー・リカレントデコーダネットワークであるTERDNetを提案する。
- 参考スコア(独自算出の注目度): 4.039245878626346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the challenge of Scene Change Detection (SCD), where the goal is to identify variations between two images of the same location captured at different times. Existing SCD models often overlook the varying importance of features across layers, employ single-step decoders that confine refinement, and provide limited insight into encoder pretraining strategies. We propose TERDNet, a Transformer Encoder-Recurrent Decoder Network designed to overcome these limitations. TERDNet consists of a transformer-based encoder that extracts multi-level representations, a feature fusion module that integrates correlation volumes with these features, a recurrent 3-gate-GRU decoder that performs iterative refinement, and a combined convolution-interpolation upsampler that restores fine-grained resolution. Extensive experiments on four public benchmarks show that TERDNet consistently outperforms prior approaches and produces more accurate and detailed change masks. Ablation studies confirm the benefit of segmentation-based pretraining and the effectiveness of our fusion design. In addition, robustness tests under viewpoint misalignment confirm TERDNet's potential for deployment in real-world robotic systems, where reliable perception is critical. Our code is available at https://github.com/AutoCompSysLab/TERDNet.
- Abstract(参考訳): 本研究では,SCD(Scene Change Detection)の課題に対処し,異なるタイミングで撮影された同じ位置の2つの画像の違いを特定することを目的とする。
既存のSCDモデルは、レイヤ間の機能の重要性の相違を見落とし、精細化を抑えるシングルステップデコーダを採用し、エンコーダの事前訓練戦略に関する限られた洞察を提供する。
本稿では,これらの制限を克服するために,トランスフォーマーエンコーダ・リカレントデコーダネットワークであるTERDNetを提案する。
TERDNetは、マルチレベル表現を抽出するトランスフォーマーベースのエンコーダと、それらの特徴と相関ボリュームを統合する機能融合モジュールと、繰り返し3ゲート-GRUデコーダと、微細な解像度を復元する畳み込み-補間アップサンプラーで構成される。
4つの公開ベンチマークでの大規模な実験は、TERDNetが従来よりも一貫して優れており、より正確で詳細な変更マスクを生成することを示している。
アブレーション研究はセグメンテーションに基づく事前訓練の利点と融合設計の有効性を裏付けるものである。
さらに、視線ミスアライメントの下でのロバストネステストでは、信頼性の高い認識が不可欠である現実世界のロボットシステムに、TERDNetが展開する可能性を確認している。
私たちのコードはhttps://github.com/AutoCompSysLab/TERDNetで利用可能です。
関連論文リスト
- SPG-CDENet: Spatial Prior-Guided Cross Dual Encoder Network for Multi-Organ Segmentation [5.970991208589063]
本稿では,多臓器分割の精度を向上させるために,新しい2段階分割パラダイムを提案する。
SPG-CDENetは空間先行ネットワークとクロスデュアルエンコーダネットワークの2つのキーコンポーネントから構成される。
グローバルエンコーダは画像全体からグローバルセマンティック機能をキャプチャし、ローカルエンコーダは以前のネットワークの機能にフォーカスする。
論文 参考訳(メタデータ) (2025-10-30T11:33:29Z) - DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer [25.180317527112372]
時間的動作検出のためのクエリベースの検出器の鍵となる制限は、もともと設計されたアーキテクチャのオブジェクト検出への直接適応から生じる。
時間的動作検出変換器(DiGIT)のための多次元ゲートエンコーダと中央隣接領域統合デコーダを提案する。
提案手法では,マルチスケールの変形可能なアテンションとフィードフォワードネットワークからなる既存のエンコーダを,マルチディイルゲートエンコーダに置き換える。
論文 参考訳(メタデータ) (2025-05-09T01:17:30Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for
Fine-Resolution Remote Sensing Images [6.171417925832851]
Swin Transformerをバックボーンとして導入し、コンテキスト情報を完全に抽出します。
また、高密度接続特徴集合モジュール(DCFAM)と呼ばれる新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。
論文 参考訳(メタデータ) (2021-04-25T11:34:22Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。