Fugu-MT 論文翻訳(概要): ViewDelta: Text-Prompted Change Detection in Unaligned Images

論文の概要: ViewDelta: Text-Prompted Change Detection in Unaligned Images

arxiv url: http://arxiv.org/abs/2412.07612v1
Date: Tue, 10 Dec 2024 15:51:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.415909
Title: ViewDelta: Text-Prompted Change Detection in Unaligned Images
Title（参考訳）: ViewDelta: アンアライン画像におけるテキストプロンプトによる変更検出
Authors: Subin Varghese, Joshua Gao, Vedhus Hoskere,
Abstract要約: ユーザが提供するテキストに関連する変更のバイナリセグメンテーションを出力するために,不整合画像とテキストプロンプトを初めて利用する新しい変更検出手法を提案する。私たちのアーキテクチャは、多様な変更検出ユースケースをまたいだ柔軟な検出を可能にするだけでなく、確立したベンチマーク上での最先端のパフォーマンスも実現します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Detecting changes between images is a fundamental problem in computer vision with broad applications in situational awareness, infrastructure assessment, environment monitoring, and industrial automation. Existing supervised models are typically limited to detecting specific types of changes, necessitating retraining for new tasks. To address these limitations with a single approach, we propose a novel change detection method that is the first to utilize unaligned images and textual prompts to output a binary segmentation of changes relevant to user-provided text. Our architecture not only enables flexible detection across diverse change detection use cases, but also yields state-of-the art performance on established benchmarks. Additionally, we release an accompanying dataset comprising of 100,311 pairs of images with text prompts and the corresponding change detection labels. We demonstrate the effectiveness of our method both quantitatively and qualitatively on datasets with a wide variety of viewpoints in indoor, outdoor, street level, synthetic, and satellite images.
Abstract（参考訳）: 画像間の変化を検出することは、状況認識、インフラアセスメント、環境モニタリング、産業自動化などの幅広い応用において、コンピュータビジョンの基本的な問題である。既存の教師付きモデルは、通常、特定のタイプの変更を検出し、新しいタスクのために再トレーニングを必要とする。このような制約を単一アプローチで解決するために、ユーザが提供するテキストに関連する変更のバイナリセグメンテーションを出力するために、不整合画像とテキストプロンプトを最初に利用する新しい変更検出手法を提案する。私たちのアーキテクチャは、多様な変更検出ユースケースをまたいだ柔軟な検出を可能にするだけでなく、確立したベンチマーク上での最先端のパフォーマンスも実現します。さらに、テキストプロンプトと対応する変更検出ラベルを備えた100,311枚の画像からなる付随データセットをリリースする。室内, 屋外, 街路, 合成, 衛星画像の様々な視点のデータセットに対して, 定量的, 定性的に手法の有効性を実証した。

関連論文リスト

UniVCD: A New Method for Unsupervised Change Detection in the Open-Vocabulary Era [0.0]
変化検出(CD)は、多時間観測によるシーン変化を特定し、都市開発や環境モニタリングに広く利用されている。既存のCD手法の多くは教師あり学習に依存しており、パフォーマンスはデータセットに依存し、高いアノテーションコストがかかる。凍ったSAM2とCLIP上に構築された教師なしのオープン語彙変化検出手法Unified Open-Vocabulary Change Detection (UniVCD)を提案する。
論文参考訳（メタデータ） (2025-12-15T08:42:23Z)
Referring Change Detection in Remote Sensing Imagery [49.841833753558575]
本稿では、自然言語のプロンプトを利用してリモートセンシング画像の変化の特定のクラスを検出するReferring Change Detection (RCD)を紹介する。我々は, (I) textbfRCDNet, (II) textbfRCDGen, (II) 拡散型合成データ生成パイプラインからなる2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-12T16:57:12Z)
UniChange: Unifying Change Detection with Multimodal Large Language Model [17.98018484822312]
変化検出(CD)は,土地被覆動態のモニタリングと解析を行うための基本課題である。現在のモデルは典型的には単一型アノテートデータから限られた知識を得る。 We developed UniChange to leverage various binary change detection (BCD) and semantic change (SCD) datasets。
論文参考訳（メタデータ） (2025-11-04T14:31:06Z)
FoBa: A Foreground-Background co-Guided Method and New Benchmark for Remote Sensing Semantic Change Detection [48.06921153684768]
本稿では,LevirSCDと呼ばれるリモートセマンティックチェンジ検出(SCD)のための新しいベンチマークを提案する。データセットには16の変更カテゴリと210の特定の変更タイプが含まれており、よりきめ細かいクラス定義がある。本研究では,フォアグラウンド・バックグラウンド・コグラウンドSCD(FoBa)手法を提案する。 FoBaは、現在のSOTA法と比較して、それぞれ1.48%、3.61%、および2.81%の改善を達成している。
論文参考訳（メタデータ） (2025-09-19T09:19:57Z)
DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。 DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文参考訳（メタデータ） (2025-07-30T03:14:27Z)
ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文参考訳（メタデータ） (2025-06-04T05:56:19Z)
DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文参考訳（メタデータ） (2025-02-05T16:35:42Z)
Detect Changes like Humans: Incorporating Semantic Priors for Improved Change Detection [52.62459671461816]
本稿では,視覚基盤モデルからのセマンティックな先入観を取り入れ,変化を検出する能力の向上について検討する。人間の視覚パラダイムにインスパイアされた新しいデュアルストリーム特徴デコーダは、意味認識特徴と差認識特徴を組み合わせることで変化を区別するために導出される。
論文参考訳（メタデータ） (2024-12-22T08:27:15Z)
ZeroSCD: Zero-Shot Street Scene Change Detection [2.3020018305241337]
Scene Change Detectionは、コンピュータビジョンとロボティクスにおいて難しいタスクである。従来の変更検出方法は、これらのイメージペアを入力として、変更を見積もるトレーニングモデルに依存しています。我々は,ゼロショットシーン変化検出フレームワークであるZeroSCDを提案する。
論文参考訳（メタデータ） (2024-09-23T17:53:44Z)
Zero-Shot Scene Change Detection [14.095215136905553]
本手法は,連続するフレームの代わりに参照画像とクエリ画像を入力することで,追跡モデルの変化検出効果を利用する。我々は、映像へのアプローチを拡張して、リッチな時間情報を活用し、シーン変化検出性能を向上させる。
論文参考訳（メタデータ） (2024-06-17T05:03:44Z)
Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文参考訳（メタデータ） (2024-05-08T03:13:20Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-21T08:12:28Z)
Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。上述の潜在対応をモデル化するための双レベルパラダイムを導入する。エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文参考訳（メタデータ） (2023-06-02T08:16:21Z)
Diversify Your Vision Datasets with Automatic Diffusion-Based Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文参考訳（メタデータ） (2023-05-25T17:43:05Z)
Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。 QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文参考訳（メタデータ） (2023-03-27T11:13:50Z)
Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-06T14:39:54Z)
Adversarial Virtual Exemplar Learning for Label-Frugal Satellite Image Change Detection [12.18340575383456]
本稿では,能動学習を用いた衛星画像変化検出について検討する。本手法は対話的であり,最も情報に富むディスプレイについて,神託者(ユーザ)に質問する質問・回答モデルに依存している。本手法の主な貢献は,最も代表的で多様で不確実な仮想観念しか持たない,神託を軽率に探究できる,新しい敵対モデルである。
論文参考訳（メタデータ） (2022-12-28T17:46:20Z)
Self-Pair: Synthesizing Changes from Single Source for Object Change Detection in Remote Sensing Imagery [6.586756080460231]
本研究では,2つの空間的無関係な画像を用いて変化検出器をトレーニングする。本稿では,画像の残像としての操作が,変化検出の性能に不可欠であることを示す。本手法は, 単一時間監視に基づく既存手法よりも優れる。
論文参考訳（メタデータ） (2022-12-20T13:26:42Z)
SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文参考訳（メタデータ） (2022-11-21T18:59:05Z)
The Change You Want to See [91.3755431537592]
同じシーンの2つのイメージが与えられた場合、その変更を自動的に検出できることは、様々な領域で実用的応用をもたらす。画像対の「オブジェクトレベル」変化を、視点や照明の違いにかかわらず検出することを目的として、変化検出問題に取り組む。
論文参考訳（メタデータ） (2022-09-28T18:10:09Z)
Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文参考訳（メタデータ） (2022-05-12T17:20:36Z)
ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文参考訳（メタデータ） (2022-03-28T12:27:34Z)
Frugal Learning of Virtual Exemplars for Label-Efficient Satellite Image Change Detection [12.18340575383456]
本稿では,能動学習に基づく対話型衛星画像変化検出アルゴリズムを提案する。提案するフレームワークは反復的であり、最も情報に富むディスプレイについてオラクル(ユーザ)に質問する質問と回答モデルに依存している。我々のフレームワークの貢献は、最も代表的で多様な仮想見本を選択できる新しい表示モデルに存在する。
論文参考訳（メタデータ） (2022-03-22T09:29:42Z)
Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文参考訳（メタデータ） (2021-08-20T14:02:38Z)
Unsupervised Change Detection in Satellite Images with Generative Adversarial Network [20.81970476609318]
本稿では,GAN(Generative Adversarial Network)を用いた新たな変更検出フレームワークを提案する。最適化されたGANモデルは、変更を容易に発見できる良質なコアギスター画像を生成し、その後、比較戦略を通じて変更マップを提示する。
論文参考訳（メタデータ） (2020-09-08T10:26:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。