論文の概要: ViewDelta: Text-Prompted Change Detection in Unaligned Images
- arxiv url: http://arxiv.org/abs/2412.07612v2
- Date: Tue, 18 Mar 2025 13:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:12:12.262414
- Title: ViewDelta: Text-Prompted Change Detection in Unaligned Images
- Title(参考訳): ViewDelta: アンアライン画像におけるテキストプロンプトによる変更検出
- Authors: Subin Varghese, Joshua Gao, Vedhus Hoskere,
- Abstract要約: 本稿では,テキストのプロンプトと,潜在的に一致しない2つの画像を用いた新しい変化検出タスクを提案する。
このテキスト条件付きフレームワークは、変更検出の範囲を大幅に広げる。
最初のテキストプロンプト条件の変更検出データセットをリリースする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Detecting changes between images is fundamental in applications such as infrastructure assessment, environmental monitoring, and industrial automation. Existing supervised models demonstrate strong performance but are inherently limited by the scope of their training data, requiring retraining to recognize novel changes. To overcome this limitation, we introduce a novel change detection task utilizing textual prompts alongside two potentially unaligned images to produce binary segmentations highlighting user-relevant changes. This text-conditioned framework significantly broadens the scope of change detection, enabling unparalleled flexibility and straightforward scalability by incorporating diverse future datasets without restriction to specific change types. As a first approach to address this challenge, we propose ViewDelta, a multimodal architecture extending the vision transformer into the domain of text-conditioned change detection. ViewDelta establishes a robust baseline, demonstrating flexibility across various scenarios and achieving competitive results compared to specialized, fine-tuned models trained on aligned images. Moreover, we create and release the first text-prompt-conditioned change detection dataset, comprising 501,153 image pairs with corresponding textual prompts and annotated labels. Extensive experiments confirm the robustness and versatility of our model across diverse environments, including indoor, outdoor, street-level, synthetic, and satellite imagery. https://joshuakgao.github.io/viewdelta/
- Abstract(参考訳): インフラストラクチャアセスメント、環境モニタリング、産業自動化といった応用において、画像間の変化を検出することが基本である。
既存の教師付きモデルは強い性能を示すが、トレーニングデータの範囲によって本質的に制限されており、新しい変化を認識するために再訓練が必要である。
この制限を克服するために、テキストプロンプトと潜在的に不整合な2つの画像を併用した新しい変更検出タスクを導入し、ユーザ関連の変更を強調したバイナリセグメンテーションを生成する。
このテキスト条件付きフレームワークは、変更検出の範囲を大幅に拡大し、特定の変更タイプに制限されることなく、さまざまな将来のデータセットを組み込むことで、非並列な柔軟性と単純なスケーラビリティを可能にします。
この課題に対処する最初のアプローチとして,視覚変換器をテキスト条件の変更検出領域に拡張するマルチモーダルアーキテクチャであるViewDeltaを提案する。
ViewDeltaは堅牢なベースラインを確立し、さまざまなシナリオにまたがる柔軟性を示し、アライメントされたイメージでトレーニングされた特別な微調整されたモデルと比較して、競争的な結果を達成する。
さらに,501,153枚の画像ペアと対応するテキストプロンプトと注釈付きラベルからなる,最初のテキストプロンプト条件付き変更検出データセットを作成し,リリースする。
大規模な実験により、屋内、屋外、街路レベルの画像、合成画像、衛星画像など、さまざまな環境にまたがるモデルの堅牢性と汎用性が確認された。
https://joshuakgao.github.io/viewdelta/
関連論文リスト
- Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文 参考訳(メタデータ) (2024-10-31T11:20:13Z) - ZeroSCD: Zero-Shot Street Scene Change Detection [2.3020018305241337]
Scene Change Detectionは、コンピュータビジョンとロボティクスにおいて難しいタスクである。
従来の変更検出方法は、これらのイメージペアを入力として、変更を見積もるトレーニングモデルに依存しています。
我々は,ゼロショットシーン変化検出フレームワークであるZeroSCDを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:53:44Z) - Zero-Shot Scene Change Detection [14.095215136905553]
本手法は,連続するフレームの代わりに参照画像とクエリ画像を入力することで,追跡モデルの変化検出効果を利用する。
我々は、シーン変化検出の性能を高めるために、リッチな時間情報を活用して、ビデオへのアプローチを拡張した。
論文 参考訳(メタデータ) (2024-06-17T05:03:44Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Self-Pair: Synthesizing Changes from Single Source for Object Change
Detection in Remote Sensing Imagery [6.586756080460231]
本研究では,2つの空間的無関係な画像を用いて変化検出器をトレーニングする。
本稿では,画像の残像としての操作が,変化検出の性能に不可欠であることを示す。
本手法は, 単一時間監視に基づく既存手法よりも優れる。
論文 参考訳(メタデータ) (2022-12-20T13:26:42Z) - The Change You Want to See [91.3755431537592]
同じシーンの2つのイメージが与えられた場合、その変更を自動的に検出できることは、様々な領域で実用的応用をもたらす。
画像対の「オブジェクトレベル」変化を、視点や照明の違いにかかわらず検出することを目的として、変化検出問題に取り組む。
論文 参考訳(メタデータ) (2022-09-28T18:10:09Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Frugal Learning of Virtual Exemplars for Label-Efficient Satellite Image
Change Detection [12.18340575383456]
本稿では,能動学習に基づく対話型衛星画像変化検出アルゴリズムを提案する。
提案するフレームワークは反復的であり、最も情報に富むディスプレイについてオラクル(ユーザ)に質問する質問と回答モデルに依存している。
我々のフレームワークの貢献は、最も代表的で多様な仮想見本を選択できる新しい表示モデルに存在する。
論文 参考訳(メタデータ) (2022-03-22T09:29:42Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Unsupervised Change Detection in Satellite Images with Generative
Adversarial Network [20.81970476609318]
本稿では,GAN(Generative Adversarial Network)を用いた新たな変更検出フレームワークを提案する。
最適化されたGANモデルは、変更を容易に発見できる良質なコアギスター画像を生成し、その後、比較戦略を通じて変更マップを提示する。
論文 参考訳(メタデータ) (2020-09-08T10:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。