論文の概要: ViewDelta: Scaling Scene Change Detection through Text-Conditioning
- arxiv url: http://arxiv.org/abs/2412.07612v3
- Date: Wed, 13 Aug 2025 16:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.070868
- Title: ViewDelta: Scaling Scene Change Detection through Text-Conditioning
- Title(参考訳): ViewDelta: テキストコンディショニングによるシーン変更検出のスケーリング
- Authors: Subin Varghese, Joshua Gao, Vedhus Hoskere,
- Abstract要約: SCD(Scene Change Detection)の一般的なフレームワークを導入し、「関連性」と「疑問性」を区別する中核的な曖昧さに対処する。
テキスト条件付き変更検出フレームワークであるViewDeltaを提案し、関連する変更を定義するために自然言語プロンプトを使用する。
私たちのコードとデータセットはhttps://joshuakgao.io/viewdelta/.com/で公開されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a generalized framework for Scene Change Detection (SCD) that addresses the core ambiguity of distinguishing "relevant" from "nuisance" changes, enabling effective joint training of a single model across diverse domains and applications. Existing methods struggle to generalize due to differences in dataset labeling, where changes such as vegetation growth or lane marking alterations may be labeled as relevant in one dataset and irrelevant in another. To resolve this ambiguity, we propose ViewDelta, a text conditioned change detection framework that uses natural language prompts to define relevant changes precisely, such as a single attribute, a specific set of classes, or all observable differences. To facilitate training in this paradigm, we release the Conditional Change Segmentation dataset (CSeg), the first large-scale synthetic dataset for text conditioned SCD, consisting of over 500,000 image pairs with more than 300,000 unique textual prompts describing relevant changes. Experiments demonstrate that a single ViewDelta model trained jointly on CSeg, SYSU-CD, PSCD, VL-CMU-CD, and their unaligned variants achieves performance competitive with or superior to dataset specific models, highlighting text conditioning as a powerful approach for generalizable SCD. Our code and dataset are available at https://joshuakgao.github.io/viewdelta/.
- Abstract(参考訳): 本稿では,複数のドメインやアプリケーションにまたがる単一モデルの効果的な共同トレーニングを可能にする,SCD(Scene Change Detection)のための一般化されたフレームワークを提案する。
既存の手法では、データセットのラベル付けの違いによって一般化が困難であり、植生の成長やレーンマーキングの変更といった変更は、あるデータセットに関連があり、別のデータセットには関係のないものとしてラベル付けされる可能性がある。
この曖昧さを解決するために,自然言語プロンプトを用いたテキスト条件付き変更検出フレームワークであるViewDeltaを提案する。
このパラダイムのトレーニングを容易にするために,50万以上の画像ペアと30万以上のユニークなテキストプロンプトからなるテキストコンディショニングSCDのための,最初の大規模合成データセットであるConditional Change Segmentation dataset (CSeg) をリリースする。
実験により、CSeg、SYSU-CD、PSCD、VL-CMU-CDで共同で訓練された単一のViewDeltaモデルが、データセット固有のモデルと競合するか、優位に立つ性能を実現し、一般化可能なSCDの強力なアプローチとしてテキストコンディショニングを強調した。
私たちのコードとデータセットはhttps://joshuakgao.github.io/viewdelta/で公開されています。
関連論文リスト
- UniVCD: A New Method for Unsupervised Change Detection in the Open-Vocabulary Era [0.0]
変化検出(CD)は、多時間観測によるシーン変化を特定し、都市開発や環境モニタリングに広く利用されている。
既存のCD手法の多くは教師あり学習に依存しており、パフォーマンスはデータセットに依存し、高いアノテーションコストがかかる。
凍ったSAM2とCLIP上に構築された教師なしのオープン語彙変化検出手法Unified Open-Vocabulary Change Detection (UniVCD)を提案する。
論文 参考訳(メタデータ) (2025-12-15T08:42:23Z) - Referring Change Detection in Remote Sensing Imagery [49.841833753558575]
本稿では、自然言語のプロンプトを利用してリモートセンシング画像の変化の特定のクラスを検出するReferring Change Detection (RCD)を紹介する。
我々は, (I) textbfRCDNet, (II) textbfRCDGen, (II) 拡散型合成データ生成パイプラインからなる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T16:57:12Z) - UniChange: Unifying Change Detection with Multimodal Large Language Model [17.98018484822312]
変化検出(CD)は,土地被覆動態のモニタリングと解析を行うための基本課題である。
現在のモデルは典型的には単一型アノテートデータから限られた知識を得る。
We developed UniChange to leverage various binary change detection (BCD) and semantic change (SCD) datasets。
論文 参考訳(メタデータ) (2025-11-04T14:31:06Z) - FoBa: A Foreground-Background co-Guided Method and New Benchmark for Remote Sensing Semantic Change Detection [48.06921153684768]
本稿では,LevirSCDと呼ばれるリモートセマンティックチェンジ検出(SCD)のための新しいベンチマークを提案する。
データセットには16の変更カテゴリと210の特定の変更タイプが含まれており、よりきめ細かいクラス定義がある。
本研究では,フォアグラウンド・バックグラウンド・コグラウンドSCD(FoBa)手法を提案する。
FoBaは、現在のSOTA法と比較して、それぞれ1.48%、3.61%、および2.81%の改善を達成している。
論文 参考訳(メタデータ) (2025-09-19T09:19:57Z) - DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。
対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。
DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文 参考訳(メタデータ) (2025-07-30T03:14:27Z) - ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - Detect Changes like Humans: Incorporating Semantic Priors for Improved Change Detection [52.62459671461816]
本稿では,視覚基盤モデルからのセマンティックな先入観を取り入れ,変化を検出する能力の向上について検討する。
人間の視覚パラダイムにインスパイアされた新しいデュアルストリーム特徴デコーダは、意味認識特徴と差認識特徴を組み合わせることで変化を区別するために導出される。
論文 参考訳(メタデータ) (2024-12-22T08:27:15Z) - ZeroSCD: Zero-Shot Street Scene Change Detection [2.3020018305241337]
Scene Change Detectionは、コンピュータビジョンとロボティクスにおいて難しいタスクである。
従来の変更検出方法は、これらのイメージペアを入力として、変更を見積もるトレーニングモデルに依存しています。
我々は,ゼロショットシーン変化検出フレームワークであるZeroSCDを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:53:44Z) - Zero-Shot Scene Change Detection [14.095215136905553]
本手法は,連続するフレームの代わりに参照画像とクエリ画像を入力することで,追跡モデルの変化検出効果を利用する。
我々は、映像へのアプローチを拡張して、リッチな時間情報を活用し、シーン変化検出性能を向上させる。
論文 参考訳(メタデータ) (2024-06-17T05:03:44Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - Adversarial Virtual Exemplar Learning for Label-Frugal Satellite Image
Change Detection [12.18340575383456]
本稿では,能動学習を用いた衛星画像変化検出について検討する。
本手法は対話的であり,最も情報に富むディスプレイについて,神託者(ユーザ)に質問する質問・回答モデルに依存している。
本手法の主な貢献は,最も代表的で多様で不確実な仮想観念しか持たない,神託を軽率に探究できる,新しい敵対モデルである。
論文 参考訳(メタデータ) (2022-12-28T17:46:20Z) - Self-Pair: Synthesizing Changes from Single Source for Object Change
Detection in Remote Sensing Imagery [6.586756080460231]
本研究では,2つの空間的無関係な画像を用いて変化検出器をトレーニングする。
本稿では,画像の残像としての操作が,変化検出の性能に不可欠であることを示す。
本手法は, 単一時間監視に基づく既存手法よりも優れる。
論文 参考訳(メタデータ) (2022-12-20T13:26:42Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - The Change You Want to See [91.3755431537592]
同じシーンの2つのイメージが与えられた場合、その変更を自動的に検出できることは、様々な領域で実用的応用をもたらす。
画像対の「オブジェクトレベル」変化を、視点や照明の違いにかかわらず検出することを目的として、変化検出問題に取り組む。
論文 参考訳(メタデータ) (2022-09-28T18:10:09Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Frugal Learning of Virtual Exemplars for Label-Efficient Satellite Image
Change Detection [12.18340575383456]
本稿では,能動学習に基づく対話型衛星画像変化検出アルゴリズムを提案する。
提案するフレームワークは反復的であり、最も情報に富むディスプレイについてオラクル(ユーザ)に質問する質問と回答モデルに依存している。
我々のフレームワークの貢献は、最も代表的で多様な仮想見本を選択できる新しい表示モデルに存在する。
論文 参考訳(メタデータ) (2022-03-22T09:29:42Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Unsupervised Change Detection in Satellite Images with Generative
Adversarial Network [20.81970476609318]
本稿では,GAN(Generative Adversarial Network)を用いた新たな変更検出フレームワークを提案する。
最適化されたGANモデルは、変更を容易に発見できる良質なコアギスター画像を生成し、その後、比較戦略を通じて変更マップを提示する。
論文 参考訳(メタデータ) (2020-09-08T10:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。