論文の概要: Dynamic Dictionary Learning for Remote Sensing Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.06683v1
- Date: Sun, 09 Mar 2025 16:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:35.792330
- Title: Dynamic Dictionary Learning for Remote Sensing Image Segmentation
- Title(参考訳): リモートセンシング画像分割のための動的辞書学習
- Authors: Xuechao Zou, Yue Li, Shun Zhang, Kai Li, Shiying Wang, Pin Tao, Junliang Xing, Congyan Lang,
- Abstract要約: この研究は動的辞書学習フレームワークを導入し、反復的な洗練を通じてクラスIDの埋め込みを明示的にモデル化する。
その中核となる貢献は、クラス認識のセマンティック埋め込みが徐々に更新される新しい辞書構築メカニズムにある。
粗いデータセットときめ細かいデータセットの両方にわたる実験は、最先端の手法よりも一貫した改善を示している。
- 参考スコア(独自算出の注目度): 22.457901431083645
- License:
- Abstract: Remote sensing image segmentation faces persistent challenges in distinguishing morphologically similar categories and adapting to diverse scene variations. While existing methods rely on implicit representation learning paradigms, they often fail to dynamically adjust semantic embeddings according to contextual cues, leading to suboptimal performance in fine-grained scenarios such as cloud thickness differentiation. This work introduces a dynamic dictionary learning framework that explicitly models class ID embeddings through iterative refinement. The core contribution lies in a novel dictionary construction mechanism, where class-aware semantic embeddings are progressively updated via multi-stage alternating cross-attention querying between image features and dictionary embeddings. This process enables adaptive representation learning tailored to input-specific characteristics, effectively resolving ambiguities in intra-class heterogeneity and inter-class homogeneity. To further enhance discriminability, a contrastive constraint is applied to the dictionary space, ensuring compact intra-class distributions while maximizing inter-class separability. Extensive experiments across both coarse- and fine-grained datasets demonstrate consistent improvements over state-of-the-art methods, particularly in two online test benchmarks (LoveDA and UAVid). Code is available at https://anonymous.4open.science/r/D2LS-8267/.
- Abstract(参考訳): リモートセンシング画像セグメンテーションは、形態学的に類似したカテゴリを識別し、多様なシーンに適応する上で、永続的な課題に直面している。
既存の手法は暗黙の表現学習パラダイムに頼っているが、文脈的手がかりに従って意味的な埋め込みを動的に調整することができないことが多く、雲の厚さの微分のような微妙なシナリオでは最適以下の性能が得られる。
この研究は動的辞書学習フレームワークを導入し、反復的な洗練を通じてクラスIDの埋め込みを明示的にモデル化する。
その中核となる貢献は、画像の特徴と辞書の埋め込みを交互に交互にクエリすることで、クラス認識のセマンティック埋め込みを段階的に更新する新しい辞書構築メカニズムにある。
このプロセスは、入力固有の特徴に合わせて調整された適応表現学習を可能にし、クラス内不均一性とクラス間均一性の曖昧性を効果的に解決する。
さらに差別性を高めるため、辞書空間にコントラスト制約を適用し、クラス間分離性を最大化しつつ、クラス内分布のコンパクト化を確保する。
特に2つのオンラインテストベンチマーク(LoveDAとUAVid)において、粗いデータセットときめ細かいデータセットの両方にわたる大規模な実験は、最先端のメソッドよりも一貫した改善を示している。
コードはhttps://anonymous.4open.science/r/D2LS-8267/で入手できる。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Deep Dictionary Learning with An Intra-class Constraint [23.679645826983503]
視覚分類のためのクラス内制約(DDLIC)を用いた新しい深層辞書学習モデルを提案する。
具体的には、クラス内表現が互いに近接するように、異なるレベルにおける中間表現のクラス内コンパクト性制約を設計する。
従来のDDL手法とは異なり、分類段階において、DDLICはトレーニング段階と同じような方法で階層的にグレディな最適化を行う。
論文 参考訳(メタデータ) (2022-07-14T11:54:58Z) - Deep Semantic Dictionary Learning for Multi-label Image Classification [3.3989824361632337]
本稿では,辞書学習課題であるマルチラベル画像分類の解法に向けて,革新的な方法を提案する。
Deep Semantic Dictionary Learning(DSDL)という新しいエンドツーエンドモデルが設計されている。
コードとモデルを公開しました。
論文 参考訳(メタデータ) (2020-12-23T06:22:47Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。