論文の概要: ViewDelta: Text-Prompted Change Detection in Unaligned Images
- arxiv url: http://arxiv.org/abs/2412.07612v1
- Date: Tue, 10 Dec 2024 15:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:54.623869
- Title: ViewDelta: Text-Prompted Change Detection in Unaligned Images
- Title(参考訳): ViewDelta: アンアライン画像におけるテキストプロンプトによる変更検出
- Authors: Subin Varghese, Joshua Gao, Vedhus Hoskere,
- Abstract要約: ユーザが提供するテキストに関連する変更のバイナリセグメンテーションを出力するために,不整合画像とテキストプロンプトを初めて利用する新しい変更検出手法を提案する。
私たちのアーキテクチャは、多様な変更検出ユースケースをまたいだ柔軟な検出を可能にするだけでなく、確立したベンチマーク上での最先端のパフォーマンスも実現します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Detecting changes between images is a fundamental problem in computer vision with broad applications in situational awareness, infrastructure assessment, environment monitoring, and industrial automation. Existing supervised models are typically limited to detecting specific types of changes, necessitating retraining for new tasks. To address these limitations with a single approach, we propose a novel change detection method that is the first to utilize unaligned images and textual prompts to output a binary segmentation of changes relevant to user-provided text. Our architecture not only enables flexible detection across diverse change detection use cases, but also yields state-of-the art performance on established benchmarks. Additionally, we release an accompanying dataset comprising of 100,311 pairs of images with text prompts and the corresponding change detection labels. We demonstrate the effectiveness of our method both quantitatively and qualitatively on datasets with a wide variety of viewpoints in indoor, outdoor, street level, synthetic, and satellite images.
- Abstract(参考訳): 画像間の変化を検出することは、状況認識、インフラアセスメント、環境モニタリング、産業自動化などの幅広い応用において、コンピュータビジョンの基本的な問題である。
既存の教師付きモデルは、通常、特定のタイプの変更を検出し、新しいタスクのために再トレーニングを必要とする。
このような制約を単一アプローチで解決するために、ユーザが提供するテキストに関連する変更のバイナリセグメンテーションを出力するために、不整合画像とテキストプロンプトを最初に利用する新しい変更検出手法を提案する。
私たちのアーキテクチャは、多様な変更検出ユースケースをまたいだ柔軟な検出を可能にするだけでなく、確立したベンチマーク上での最先端のパフォーマンスも実現します。
さらに、テキストプロンプトと対応する変更検出ラベルを備えた100,311枚の画像からなる付随データセットをリリースする。
室内, 屋外, 街路, 合成, 衛星画像の様々な視点のデータセットに対して, 定量的, 定性的に手法の有効性を実証した。
関連論文リスト
- Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文 参考訳(メタデータ) (2024-10-31T11:20:13Z) - ZeroSCD: Zero-Shot Street Scene Change Detection [2.3020018305241337]
Scene Change Detectionは、コンピュータビジョンとロボティクスにおいて難しいタスクである。
従来の変更検出方法は、これらのイメージペアを入力として、変更を見積もるトレーニングモデルに依存しています。
我々は,ゼロショットシーン変化検出フレームワークであるZeroSCDを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:53:44Z) - Zero-Shot Scene Change Detection [14.095215136905553]
本手法は,連続するフレームの代わりに参照画像とクエリ画像を入力することで,追跡モデルの変化検出効果を利用する。
我々は、シーン変化検出の性能を高めるために、リッチな時間情報を活用して、ビデオへのアプローチを拡張した。
論文 参考訳(メタデータ) (2024-06-17T05:03:44Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Self-Pair: Synthesizing Changes from Single Source for Object Change
Detection in Remote Sensing Imagery [6.586756080460231]
本研究では,2つの空間的無関係な画像を用いて変化検出器をトレーニングする。
本稿では,画像の残像としての操作が,変化検出の性能に不可欠であることを示す。
本手法は, 単一時間監視に基づく既存手法よりも優れる。
論文 参考訳(メタデータ) (2022-12-20T13:26:42Z) - The Change You Want to See [91.3755431537592]
同じシーンの2つのイメージが与えられた場合、その変更を自動的に検出できることは、様々な領域で実用的応用をもたらす。
画像対の「オブジェクトレベル」変化を、視点や照明の違いにかかわらず検出することを目的として、変化検出問題に取り組む。
論文 参考訳(メタデータ) (2022-09-28T18:10:09Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Frugal Learning of Virtual Exemplars for Label-Efficient Satellite Image
Change Detection [12.18340575383456]
本稿では,能動学習に基づく対話型衛星画像変化検出アルゴリズムを提案する。
提案するフレームワークは反復的であり、最も情報に富むディスプレイについてオラクル(ユーザ)に質問する質問と回答モデルに依存している。
我々のフレームワークの貢献は、最も代表的で多様な仮想見本を選択できる新しい表示モデルに存在する。
論文 参考訳(メタデータ) (2022-03-22T09:29:42Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Unsupervised Change Detection in Satellite Images with Generative
Adversarial Network [20.81970476609318]
本稿では,GAN(Generative Adversarial Network)を用いた新たな変更検出フレームワークを提案する。
最適化されたGANモデルは、変更を容易に発見できる良質なコアギスター画像を生成し、その後、比較戦略を通じて変更マップを提示する。
論文 参考訳(メタデータ) (2020-09-08T10:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。