論文の概要: ChangeDiff: A Multi-Temporal Change Detection Data Generator with Flexible Text Prompts via Diffusion Model
- arxiv url: http://arxiv.org/abs/2412.15541v1
- Date: Fri, 20 Dec 2024 03:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:21:52.111749
- Title: ChangeDiff: A Multi-Temporal Change Detection Data Generator with Flexible Text Prompts via Diffusion Model
- Title(参考訳): ChangeDiff: 拡散モデルによるフレキシブルテキストプロンプットを用いたマルチテンポラリ変化検出データジェネレータ
- Authors: Qi Zang, Jiayi Yang, Shuang Wang, Dong Zhao, Wenjun Yi, Zhun Zhong,
- Abstract要約: 本稿では,セマンティックCD(SCD)タスクに着目し,マルチテンポラリSCDデータジェネレータであるChangeDiffを開発する。
ChangeDiffは2つのステップで変更データを生成する。まず、連続的なレイアウトを作成するためにテキストプロンプトとテキスト・ツー・イメージモデルを使用し、それからレイアウト・ツー・イメージを使用してレイアウトをイメージに変換する。
生成したデータは、時間的連続性、空間的多様性、および品質リアリズムの著しい進歩を示し、精度と伝達性で変化検出器を増強した。
- 参考スコア(独自算出の注目度): 21.50463332137926
- License:
- Abstract: Data-driven deep learning models have enabled tremendous progress in change detection (CD) with the support of pixel-level annotations. However, collecting diverse data and manually annotating them is costly, laborious, and knowledge-intensive. Existing generative methods for CD data synthesis show competitive potential in addressing this issue but still face the following limitations: 1) difficulty in flexibly controlling change events, 2) dependence on additional data to train the data generators, 3) focus on specific change detection tasks. To this end, this paper focuses on the semantic CD (SCD) task and develops a multi-temporal SCD data generator ChangeDiff by exploring powerful diffusion models. ChangeDiff innovatively generates change data in two steps: first, it uses text prompts and a text-to-layout (T2L) model to create continuous layouts, and then it employs layout-to-image (L2I) to convert these layouts into images. Specifically, we propose multi-class distribution-guided text prompts (MCDG-TP), allowing for layouts to be generated flexibly through controllable classes and their corresponding ratios. Subsequently, to generalize the T2L model to the proposed MCDG-TP, a class distribution refinement loss is further designed as training supervision. %For the former, a multi-classdistribution-guided text prompt (MCDG-TP) is proposed to complement via controllable classes and ratios. To generalize the text-to-image diffusion model to the proposed MCDG-TP, a class distribution refinement loss is designed as training supervision. For the latter, MCDG-TP in three modes is proposed to synthesize new layout masks from various texts. Our generated data shows significant progress in temporal continuity, spatial diversity, and quality realism, empowering change detectors with accuracy and transferability. The code is available at https://github.com/DZhaoXd/ChangeDiff
- Abstract(参考訳): データ駆動のディープラーニングモデルは、ピクセルレベルのアノテーションをサポートすることで、変更検出(CD)の大幅な進歩を可能にしました。
しかし、多様なデータを収集して手動で注釈付けすることは、コストがかかり、手間がかかり、知識が集中的です。
CDデータ合成のための既存の生成手法は、この問題に対処する競争力を示しているが、以下の制限に直面している。
1) 変化イベントを柔軟に制御することの難しさ。
2)データジェネレータを訓練するための追加データへの依存
3) 特定の変更検出タスクに注力する。
そこで本研究では,SCD(セマンティックCD)タスクに焦点をあて,強力な拡散モデルを探究し,マルチテンポラリSCDデータジェネレータであるChangeDiffを開発した。
ChangeDiffは、まずテキストプロンプトとテキスト・トゥ・レイアウト(T2L)モデルを使って連続的なレイアウトを作成し、それからレイアウト・トゥ・イメージ(L2I)を使ってレイアウトをイメージに変換する。
具体的には,マルチクラス分散誘導テキストプロンプト(MCDG-TP)を提案する。
その後、T2Lモデルを提案したMCDG-TPに一般化するために、クラス分布改善損失をトレーニング監督として設計する。
% 前者では、制御可能なクラスと比率で補うためにMCDG-TP(multi-classdistriion-guided text prompt)が提案されている。
テキスト・画像拡散モデルを提案したMCDG-TPに一般化するために,クラス分布改善損失を訓練指導として設計する。
後者では、3つのモードでMCDG-TPを合成し、様々なテキストから新しいレイアウトマスクを合成する。
生成したデータは、時間的連続性、空間的多様性、および品質リアリズムの著しい進歩を示し、精度と伝達性で変化検出器を増強した。
コードはhttps://github.com/DZhaoXd/ChangeDiffで入手できる。
関連論文リスト
- Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models [59.16287352266203]
本稿では,テキスト・ツー・イメージ(T2I)拡散モデルのための新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を紹介する。
APTPは入力テキストプロンプトに必要な容量を決定することを学び、それをアーキテクチャコードにルーティングする。
APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
論文 参考訳(メタデータ) (2024-06-17T19:22:04Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - T-SaS: Toward Shift-aware Dynamic Adaptation for Streaming Data [9.829993835712422]
本稿では,突発的な分散シフトの存在下での逐次データモデリングの課題を解決することを目的とする。
具体的には、データの急激なシフトを捉えるために、離散分布モデリング変数を持つT-SaSと呼ばれるベイズフレームワークを設計する。
提案手法は,全ネットワーク上でどのニューロンを活性化すべきかを学習することで,各分布の特定のモデルパラメータを学習する。
論文 参考訳(メタデータ) (2023-09-05T22:55:10Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Learning from Multiple Sources for Data-to-Text and Text-to-Data [16.080265665849527]
Data-to-text (D2T) と text-to-data (T2D) は、グラフやテーブルなどの構造化されたデータを流用なテキストに変換する2つのタスクである。
現在のシステムは、D2TやT2Dタスクに微調整された事前訓練された言語モデルを利用している。
このアプローチには2つの主な制限がある。ひとつは、タスクとソース毎に個別のシステムを調整する必要があること、もうひとつは、利用可能なコーパスの不足によって学習が制限されることだ。
変形型自動エンコーダモデルを導入し,その多様性を表現できるように,アンタングル型とコンテンツ変数を交互に構成する。
論文 参考訳(メタデータ) (2023-02-22T10:39:33Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。