論文の概要: Task-Oriented Data Synthesis and Control-Rectify Sampling for Remote Sensing Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2512.16740v1
- Date: Thu, 18 Dec 2025 16:37:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.16103
- Title: Task-Oriented Data Synthesis and Control-Rectify Sampling for Remote Sensing Semantic Segmentation
- Title(参考訳): リモートセンシングセマンティックセマンティックセグメンテーションのためのタスク指向データ合成と制御規則サンプリング
- Authors: Yunkai Yang, Yudong Zhang, Kunquan Zhang, Jinxiao Zhang, Xinying Chen, Haohuan Fu, Runmin Dong,
- Abstract要約: トレーニングデータ合成は、ラベル付きデータセットを拡張し、リモートセンシングにおける手動アノテーションを軽減するための有望な方法となっている。
セマンティックマスク制御の複雑さとサンプリング品質の不確実性は、下流セマンティックセグメンテーションタスクにおける合成データの有用性を制限することが多い。
本稿では,マルチモーダル拡散変換器(MM-DiT)と,タスクフィードバックによって誘導されるプラグアンドプレイサンプリング戦略を含む,タスク指向のデータ合成フレームワークを提案する。
提案手法は最先端の制御可能生成法を一貫して上回り,RSセマンティックセグメンテーションのためのより安定的でタスク指向の合成データを生成する。
- 参考スコア(独自算出の注目度): 13.370878496504458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid progress of controllable generation, training data synthesis has become a promising way to expand labeled datasets and alleviate manual annotation in remote sensing (RS). However, the complexity of semantic mask control and the uncertainty of sampling quality often limit the utility of synthetic data in downstream semantic segmentation tasks. To address these challenges, we propose a task-oriented data synthesis framework (TODSynth), including a Multimodal Diffusion Transformer (MM-DiT) with unified triple attention and a plug-and-play sampling strategy guided by task feedback. Built upon the powerful DiT-based generative foundation model, we systematically evaluate different control schemes, showing that a text-image-mask joint attention scheme combined with full fine-tuning of the image and mask branches significantly enhances the effectiveness of RS semantic segmentation data synthesis, particularly in few-shot and complex-scene scenarios. Furthermore, we propose a control-rectify flow matching (CRFM) method, which dynamically adjusts sampling directions guided by semantic loss during the early high-plasticity stage, mitigating the instability of generated images and bridging the gap between synthetic data and downstream segmentation tasks. Extensive experiments demonstrate that our approach consistently outperforms state-of-the-art controllable generation methods, producing more stable and task-oriented synthetic data for RS semantic segmentation.
- Abstract(参考訳): 制御可能な生成の急速な進歩により、トレーニングデータ合成はラベル付きデータセットを拡張し、リモートセンシング(RS)における手動アノテーションを緩和する有望な方法となっている。
しかし、セマンティックマスク制御の複雑さとサンプリング品質の不確実性により、下流セマンティックセグメンテーションタスクにおける合成データの有用性が制限されることがしばしばある。
これらの課題に対処するために,マルチモーダル拡散変換器 (MM-DiT) と,タスクフィードバックによって誘導されるプラグアンドプレイサンプリング戦略を含むタスク指向データ合成フレームワーク (TODSynth) を提案する。
画像とマスク分岐の完全な微調整と組み合わせたテキストイメージマスク共同注意スキームが,特にショットや複雑なシナリオにおいて,RSセマンティックセグメンテーションデータ合成の有効性を著しく向上させることを示す。
さらに,高塑性初期における意味的損失によって誘導されるサンプリング方向を動的に調整し,生成画像の不安定性を軽減し,合成データと下流セグメンテーションタスクのギャップを埋めるCRFM法を提案する。
広汎な実験により、我々の手法は最先端の制御可能生成法より一貫して優れており、RSセマンティックセグメンテーションのためのより安定的でタスク指向の合成データを生成する。
関連論文リスト
- Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection [30.77558600436759]
ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
論文 参考訳(メタデータ) (2025-08-05T15:07:32Z) - Task-Oriented Low-Label Semantic Communication With Self-Supervised Learning [67.06363342414397]
タスク指向の意味コミュニケーションは、正確なメッセージではなく意味情報を伝達することで伝達効率を高める。
深層学習(DL)に基づく意味コミュニケーションは、意味抽出、伝達、解釈に不可欠な意味知識を効果的に育むことができる。
タスク推論性能を向上させるための自己教師付き学習ベースセマンティックコミュニケーションフレームワーク(SLSCom)を提案する。
論文 参考訳(メタデータ) (2025-05-26T13:06:18Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - FastMCTS: A Simple Sampling Strategy for Data Synthesis [67.60823802317141]
我々はモンテカルロ木探索にインスパイアされた革新的なデータ合成戦略であるFastMCTSを紹介する。
FastMCTSは、ステップレベルの評価信号を提供するマルチステップ推論データに対して、より効率的なサンプリング方法を提供する。
英語と中国語の両方の推論データセットの実験では、FastMCTSが30%以上の正しい推論パスを生成することが示されている。
論文 参考訳(メタデータ) (2025-02-17T06:27:57Z) - Latent Diffusion Model-Enabled Low-Latency Semantic Communication in the Presence of Semantic Ambiguities and Wireless Channel Noises [18.539501941328393]
本稿では,ソースデータのアウトレイラを処理するために,遅延拡散モデルを用いたSemComシステムを開発した。
軽量な単層遅延空間変換アダプタは、送信機でのワンショット学習を完了させる。
終端整合蒸留法を用いて, 潜時空間で訓練した拡散模型を蒸留する。
論文 参考訳(メタデータ) (2024-06-09T23:39:31Z) - Tackling Distribution Shifts in Task-Oriented Communication with Information Bottleneck [28.661084093544684]
本稿では,情報ボトルネック(IB)原理と不変リスク最小化(IRM)フレームワークに基づく新しいアプローチを提案する。
提案手法は,効率的な領域シフト一般化のための高機能を有するコンパクトかつ情報的特徴を抽出することを目的としている。
提案手法は最先端の手法より優れ、より優れたレート歪みトレードオフを実現することを示す。
論文 参考訳(メタデータ) (2024-05-15T17:07:55Z) - Transformer-based Self-supervised Multimodal Representation Learning for
Wearable Emotion Recognition [2.4364387374267427]
ウェアラブル感情認識のための新しい自己教師型学習(SSL)フレームワークを提案する。
本手法は様々な感情分類タスクにおいて最先端の結果を得た。
論文 参考訳(メタデータ) (2023-03-29T19:45:55Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。