論文の概要: Change3D: Revisiting Change Detection and Captioning from A Video Modeling Perspective
- arxiv url: http://arxiv.org/abs/2503.18803v1
- Date: Mon, 24 Mar 2025 15:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:29.950312
- Title: Change3D: Revisiting Change Detection and Captioning from A Video Modeling Perspective
- Title(参考訳): Change3D:ビデオモデリングの観点からの変更検出とキャプションを再考する
- Authors: Duowang Zhu, Xiaohu Huang, Haiyan Huang, Hao Zhou, Zhenfeng Shao,
- Abstract要約: ビデオモデリングによる変更検出とキャプションタスクの再認識を行うフレームワークであるChange3Dを提案する。
両時間画像間で学習可能な知覚フレームを統合することにより、ビデオエンコーダは、認識フレームが直接画像と相互作用し、その違いを知覚することができる。
- 参考スコア(独自算出の注目度): 14.128228451821712
- License:
- Abstract: In this paper, we present Change3D, a framework that reconceptualizes the change detection and captioning tasks through video modeling. Recent methods have achieved remarkable success by regarding each pair of bi-temporal images as separate frames. They employ a shared-weight image encoder to extract spatial features and then use a change extractor to capture differences between the two images. However, image feature encoding, being a task-agnostic process, cannot attend to changed regions effectively. Furthermore, different change extractors designed for various change detection and captioning tasks make it difficult to have a unified framework. To tackle these challenges, Change3D regards the bi-temporal images as comprising two frames akin to a tiny video. By integrating learnable perception frames between the bi-temporal images, a video encoder enables the perception frames to interact with the images directly and perceive their differences. Therefore, we can get rid of the intricate change extractors, providing a unified framework for different change detection and captioning tasks. We verify Change3D on multiple tasks, encompassing change detection (including binary change detection, semantic change detection, and building damage assessment) and change captioning, across eight standard benchmarks. Without bells and whistles, this simple yet effective framework can achieve superior performance with an ultra-light video model comprising only ~6%-13% of the parameters and ~8%-34% of the FLOPs compared to state-of-the-art methods. We hope that Change3D could be an alternative to 2D-based models and facilitate future research.
- Abstract(参考訳): 本稿では,ビデオモデリングによる変更検出とキャプションタスクの認識を再構築するフレームワークであるChange3Dを提案する。
近年の手法は,各対の両時間像を別々のフレームとして扱うことで,顕著な成功を収めている。
共有重画像エンコーダを用いて空間的特徴を抽出し、変化抽出器を用いて2つの画像の違いをキャプチャする。
しかし、タスク非依存のプロセスである画像特徴符号化は、変化した領域に効果的に対応できない。
さらに、様々な変更検出やキャプションタスクのために設計された異なる変更抽出器は、統一されたフレームワークを持つことを困難にしている。
これらの課題に対処するため、Change3Dでは、バイテンポラル画像は小さなビデオに似た2つのフレームで構成されていると考えている。
両時間画像間で学習可能な知覚フレームを統合することにより、ビデオエンコーダは、認識フレームが直接画像と相互作用し、その違いを知覚することができる。
そのため、複雑な変更抽出器を排除し、異なる変更検出とキャプションタスクのための統一的なフレームワークを提供する。
変更検出(バイナリ変更検出、セマンティック変更検出、ビルディング損傷評価を含む)と変更キャプションを含む、複数のタスクにおけるChange3Dを検証する。
ベルとホイッスルがなければ、このシンプルで効果的なフレームワークは、パラメータの 6%-13% と、最先端の手法に比べて 8%-34% の FLOP しか持たない超軽量ビデオモデルで、優れた性能を達成することができる。
Change3Dが2Dベースのモデルの代替になり、将来の研究を促進することを期待しています。
関連論文リスト
- Multi-View Pose-Agnostic Change Localization with Zero Labels [4.997375878454274]
複数の視点から情報を統合したラベルのないポーズに依存しない変化検出手法を提案する。
ポストチェンジシーンの5つの画像で、我々のアプローチは3DGSで追加の変更チャンネルを学習できる。
変更対応の3Dシーン表現により、見当たらない視点の正確な変更マスクの生成が可能となる。
論文 参考訳(メタデータ) (2024-12-05T06:28:54Z) - Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - Zero-Shot Scene Change Detection [14.095215136905553]
本手法は,連続するフレームの代わりに参照画像とクエリ画像を入力することで,追跡モデルの変化検出効果を利用する。
我々は、シーン変化検出の性能を高めるために、リッチな時間情報を活用して、ビデオへのアプローチを拡張した。
論文 参考訳(メタデータ) (2024-06-17T05:03:44Z) - Changes-Aware Transformer: Learning Generalized Changes Representation [56.917000244470174]
差分特徴の精細化のための新しい変化認識変換器(CAT)を提案する。
様々な変化の一般化表現は、差分特徴空間において容易に学習される。
精細化後、差分特徴空間における変化画素同士が近接し、変化検出を容易にする。
論文 参考訳(メタデータ) (2023-09-24T12:21:57Z) - The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - Self-Pair: Synthesizing Changes from Single Source for Object Change
Detection in Remote Sensing Imagery [6.586756080460231]
本研究では,2つの空間的無関係な画像を用いて変化検出器をトレーニングする。
本稿では,画像の残像としての操作が,変化検出の性能に不可欠であることを示す。
本手法は, 単一時間監視に基づく既存手法よりも優れる。
論文 参考訳(メタデータ) (2022-12-20T13:26:42Z) - The Change You Want to See [91.3755431537592]
同じシーンの2つのイメージが与えられた場合、その変更を自動的に検出できることは、様々な領域で実用的応用をもたらす。
画像対の「オブジェクトレベル」変化を、視点や照明の違いにかかわらず検出することを目的として、変化検出問題に取り組む。
論文 参考訳(メタデータ) (2022-09-28T18:10:09Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。