Fugu-MT 論文翻訳(概要): ViewDelta: Text-Prompted Change Detection in Unaligned Images

論文の概要: ViewDelta: Text-Prompted Change Detection in Unaligned Images

arxiv url: http://arxiv.org/abs/2412.07612v2
Date: Tue, 18 Mar 2025 13:47:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:10.661756
Title: ViewDelta: Text-Prompted Change Detection in Unaligned Images
Title（参考訳）: ViewDelta: アンアライン画像におけるテキストプロンプトによる変更検出
Authors: Subin Varghese, Joshua Gao, Vedhus Hoskere,
Abstract要約: 本稿では,テキストのプロンプトと,潜在的に一致しない2つの画像を用いた新しい変化検出タスクを提案する。このテキスト条件付きフレームワークは、変更検出の範囲を大幅に広げる。最初のテキストプロンプト条件の変更検出データセットをリリースする。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Detecting changes between images is fundamental in applications such as infrastructure assessment, environmental monitoring, and industrial automation. Existing supervised models demonstrate strong performance but are inherently limited by the scope of their training data, requiring retraining to recognize novel changes. To overcome this limitation, we introduce a novel change detection task utilizing textual prompts alongside two potentially unaligned images to produce binary segmentations highlighting user-relevant changes. This text-conditioned framework significantly broadens the scope of change detection, enabling unparalleled flexibility and straightforward scalability by incorporating diverse future datasets without restriction to specific change types. As a first approach to address this challenge, we propose ViewDelta, a multimodal architecture extending the vision transformer into the domain of text-conditioned change detection. ViewDelta establishes a robust baseline, demonstrating flexibility across various scenarios and achieving competitive results compared to specialized, fine-tuned models trained on aligned images. Moreover, we create and release the first text-prompt-conditioned change detection dataset, comprising 501,153 image pairs with corresponding textual prompts and annotated labels. Extensive experiments confirm the robustness and versatility of our model across diverse environments, including indoor, outdoor, street-level, synthetic, and satellite imagery. https://joshuakgao.github.io/viewdelta/
Abstract（参考訳）: インフラストラクチャアセスメント、環境モニタリング、産業自動化といった応用において、画像間の変化を検出することが基本である。既存の教師付きモデルは強い性能を示すが、トレーニングデータの範囲によって本質的に制限されており、新しい変化を認識するために再訓練が必要である。この制限を克服するために、テキストプロンプトと潜在的に不整合な2つの画像を併用した新しい変更検出タスクを導入し、ユーザ関連の変更を強調したバイナリセグメンテーションを生成する。このテキスト条件付きフレームワークは、変更検出の範囲を大幅に拡大し、特定の変更タイプに制限されることなく、さまざまな将来のデータセットを組み込むことで、非並列な柔軟性と単純なスケーラビリティを可能にします。この課題に対処する最初のアプローチとして,視覚変換器をテキスト条件の変更検出領域に拡張するマルチモーダルアーキテクチャであるViewDeltaを提案する。 ViewDeltaは堅牢なベースラインを確立し、さまざまなシナリオにまたがる柔軟性を示し、アライメントされたイメージでトレーニングされた特別な微調整されたモデルと比較して、競争的な結果を達成する。さらに,501,153枚の画像ペアと対応するテキストプロンプトと注釈付きラベルからなる,最初のテキストプロンプト条件付き変更検出データセットを作成し,リリースする。大規模な実験により、屋内、屋外、街路レベルの画像、合成画像、衛星画像など、さまざまな環境にまたがるモデルの堅牢性と汎用性が確認された。 https://joshuakgao.github.io/viewdelta/

関連論文リスト

DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。 DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文参考訳（メタデータ） (2025-07-30T03:14:27Z)
ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文参考訳（メタデータ） (2025-06-04T05:56:19Z)
DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文参考訳（メタデータ） (2025-02-05T16:35:42Z)
ZeroSCD: Zero-Shot Street Scene Change Detection [2.3020018305241337]
Scene Change Detectionは、コンピュータビジョンとロボティクスにおいて難しいタスクである。従来の変更検出方法は、これらのイメージペアを入力として、変更を見積もるトレーニングモデルに依存しています。我々は,ゼロショットシーン変化検出フレームワークであるZeroSCDを提案する。
論文参考訳（メタデータ） (2024-09-23T17:53:44Z)
Zero-Shot Scene Change Detection [14.095215136905553]
本手法は,連続するフレームの代わりに参照画像とクエリ画像を入力することで,追跡モデルの変化検出効果を利用する。我々は、映像へのアプローチを拡張して、リッチな時間情報を活用し、シーン変化検出性能を向上させる。
論文参考訳（メタデータ） (2024-06-17T05:03:44Z)
Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文参考訳（メタデータ） (2024-05-08T03:13:20Z)
Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。上述の潜在対応をモデル化するための双レベルパラダイムを導入する。エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文参考訳（メタデータ） (2023-06-02T08:16:21Z)
Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。 QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文参考訳（メタデータ） (2023-03-27T11:13:50Z)
Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-06T14:39:54Z)
Adversarial Virtual Exemplar Learning for Label-Frugal Satellite Image Change Detection [12.18340575383456]
本稿では,能動学習を用いた衛星画像変化検出について検討する。本手法は対話的であり,最も情報に富むディスプレイについて,神託者(ユーザ)に質問する質問・回答モデルに依存している。本手法の主な貢献は,最も代表的で多様で不確実な仮想観念しか持たない,神託を軽率に探究できる,新しい敵対モデルである。
論文参考訳（メタデータ） (2022-12-28T17:46:20Z)
Self-Pair: Synthesizing Changes from Single Source for Object Change Detection in Remote Sensing Imagery [6.586756080460231]
本研究では,2つの空間的無関係な画像を用いて変化検出器をトレーニングする。本稿では,画像の残像としての操作が,変化検出の性能に不可欠であることを示す。本手法は, 単一時間監視に基づく既存手法よりも優れる。
論文参考訳（メタデータ） (2022-12-20T13:26:42Z)
SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文参考訳（メタデータ） (2022-11-21T18:59:05Z)
The Change You Want to See [91.3755431537592]
同じシーンの2つのイメージが与えられた場合、その変更を自動的に検出できることは、様々な領域で実用的応用をもたらす。画像対の「オブジェクトレベル」変化を、視点や照明の違いにかかわらず検出することを目的として、変化検出問題に取り組む。
論文参考訳（メタデータ） (2022-09-28T18:10:09Z)
Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文参考訳（メタデータ） (2022-05-12T17:20:36Z)
ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文参考訳（メタデータ） (2022-03-28T12:27:34Z)
Frugal Learning of Virtual Exemplars for Label-Efficient Satellite Image Change Detection [12.18340575383456]
本稿では,能動学習に基づく対話型衛星画像変化検出アルゴリズムを提案する。提案するフレームワークは反復的であり、最も情報に富むディスプレイについてオラクル(ユーザ)に質問する質問と回答モデルに依存している。我々のフレームワークの貢献は、最も代表的で多様な仮想見本を選択できる新しい表示モデルに存在する。
論文参考訳（メタデータ） (2022-03-22T09:29:42Z)
Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文参考訳（メタデータ） (2021-08-20T14:02:38Z)
Unsupervised Change Detection in Satellite Images with Generative Adversarial Network [20.81970476609318]
本稿では,GAN(Generative Adversarial Network)を用いた新たな変更検出フレームワークを提案する。最適化されたGANモデルは、変更を容易に発見できる良質なコアギスター画像を生成し、その後、比較戦略を通じて変更マップを提示する。
論文参考訳（メタデータ） (2020-09-08T10:26:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。