Fugu-MT 論文翻訳(概要): CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation

論文の概要: CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation

arxiv url: http://arxiv.org/abs/2503.15617v1
Date: Wed, 19 Mar 2025 18:06:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.12877
Title: CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation
Title（参考訳）: CAM-Seg: セマンティック画像生成のための連続値埋め込み手法
Authors: Masud Ahmed, Zahid Hasan, Syed Arefinul Haque, Abu Zaher Md Faridee, Sanjay Purushotham, Suya You, Nirmalya Roy,
Abstract要約: 量子化埋め込みを用いたセグメンテーションマスクのオートエンコーダ精度は連続数値埋め込みよりも8%低い。セマンティックセグメンテーションのための連続評価組込みフレームワークを提案する。提案手法では,細粒度のセマンティックな詳細を保存しながら,離散的な潜在表現の必要性を排除している。
参考スコア（独自算出の注目度）: 11.170848285659572
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional transformer-based semantic segmentation relies on quantized embeddings. However, our analysis reveals that autoencoder accuracy on segmentation mask using quantized embeddings (e.g. VQ-VAE) is 8% lower than continuous-valued embeddings (e.g. KL-VAE). Motivated by this, we propose a continuous-valued embedding framework for semantic segmentation. By reformulating semantic mask generation as a continuous image-to-embedding diffusion process, our approach eliminates the need for discrete latent representations while preserving fine-grained spatial and semantic details. Our key contribution includes a diffusion-guided autoregressive transformer that learns a continuous semantic embedding space by modeling long-range dependencies in image features. Our framework contains a unified architecture combining a VAE encoder for continuous feature extraction, a diffusion-guided transformer for conditioned embedding generation, and a VAE decoder for semantic mask reconstruction. Our setting facilitates zero-shot domain adaptation capabilities enabled by the continuity of the embedding space. Experiments across diverse datasets (e.g., Cityscapes and domain-shifted variants) demonstrate state-of-the-art robustness to distribution shifts, including adverse weather (e.g., fog, snow) and viewpoint variations. Our model also exhibits strong noise resilience, achieving robust performance ($\approx$ 95% AP compared to baseline) under gaussian noise, moderate motion blur, and moderate brightness/contrast variations, while experiencing only a moderate impact ($\approx$ 90% AP compared to baseline) from 50% salt and pepper noise, saturation and hue shifts. Code available: https://github.com/mahmed10/CAMSS.git
Abstract（参考訳）: 従来のトランスフォーマーベースのセマンティックセグメンテーションは、量子化された埋め込みに依存している。しかし, 量子化埋め込み(例えばVQ-VAE)を用いたセグメンテーションマスクのオートエンコーダ精度は, 連続値埋め込み(例えばKL-VAE)よりも8%低いことがわかった。そこで本研究では,セマンティックセグメンテーションのための連続値埋め込みフレームワークを提案する。連続的な画像-埋め込み拡散過程としてのセマンティックマスク生成を再構成することにより、細かな空間的・意味的な詳細を保存しながら、離散的な潜在表現の必要性を解消する。我々の重要な貢献には拡散誘導型自己回帰変換器が含まれており、画像特徴の長距離依存性をモデル化して連続的なセマンティック埋め込み空間を学習する。本フレームワークは,連続的特徴抽出のためのVAEエンコーダ,条件付き埋め込み生成のための拡散誘導変換器,セマンティックマスク再構成のためのVAEデコーダを組み合わせた統一アーキテクチャを含む。我々の設定は、埋め込み空間の連続性によって実現されるゼロショット領域適応機能を促進する。さまざまなデータセット(例:都市景観、ドメインシフトの変種)にわたる実験は、悪天候(例:霧、雪)や視点の変化など、分布シフトに対する最先端の堅牢性を示す。また,強い耐雑音性を示し,強靭性(ベースラインと比較して95% AP)を実現し,ガウス雑音,中等モーションブラー,中等輝度/コントラスト変化を呈し,50%の塩と唐辛子雑音,飽和,色相変化から中等衝撃(ベースラインに比べて90% AP)のみを経験した。コード提供: https://github.com/mahmed10/CAMSS.git

関連論文リスト

Context-Aware Autoregressive Models for Multi-Conditional Image Generation [24.967166342680112]
ContextARは、多条件画像生成のための柔軟で効果的なフレームワークである。様々な条件をトークンシーケンスに直接埋め込み、モダリティ固有の意味論を保存する。拡散型多条件制御よりも競争力が高いことが,既存の自己回帰ベースラインに近づくことを示す。
論文参考訳（メタデータ） (2025-05-18T07:27:02Z)
Semantic-Guided Diffusion Model for Single-Step Image Super-Resolution [13.187007344274662]
拡散型画像超解像法 (SR) は顕著な性能を示した。最近の進歩は15段階から1段階まで推論を減少させる決定論的サンプリングプロセスを導入している。本稿では,セマンティックセグメンテーションマスクをサンプリングプロセスに組み込んだ意味誘導拡散フレームワークSAMSRを提案する。
論文参考訳（メタデータ） (2025-05-11T17:45:05Z)
High-Fidelity Image Inpainting with Multimodal Guided GAN Inversion [15.202130790708747]
本稿では,画像インペイントのための新しいGANインバージョン手法MMInvertFillを提案する。 MMInvertFillは、主に事前変調のマルチモーダル誘導エンコーダと、F&W+遅延空間のGANジェネレータを含む。 MMInvertFillは他の最先端技術よりも質的に定量的に優れていることを示す。
論文参考訳（メタデータ） (2025-04-17T10:58:45Z)
FreSca: Unveiling the Scaling Space in Diffusion Models [52.20473039489599]
拡散モデルは、主にタスク固有の情報をエンコードするノイズ予測と、調整可能なスケーリングを可能にするガイダンスを通じて、画像タスクに対して印象的な制御性を提供する。条件/条件付き雑音予測の違いがキーセマンティック情報を伝達するインバージョンベースの編集から始めることで、この空間を考察する。我々のコアコントリビューションは、ノイズ予測のフーリエ解析に起因し、その低周波成分と高周波成分が拡散を通して異なる進化を遂げていることを明らかにする。この知見に基づいてFreScaを導入し、FreScaはフーリエ領域の異なる周波数帯域に独立してガイダンススケーリングを適用する簡単な方法である。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models [55.99654128127689]
Visual Foundation Models (VFM) は、弱い教師付きピクセル対ポイントのコントラスト蒸留のためのセマンティックラベルを生成するために使用される。我々は,空間分布とカテゴリー周波数の不均衡に対応するために,点のサンプリング確率を適応させる。我々の手法は、下流タスクにおける既存の画像からLiDARへのコントラスト蒸留法を一貫して超越している。
論文参考訳（メタデータ） (2024-05-23T07:48:19Z)
CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文参考訳（メタデータ） (2024-02-08T23:51:49Z)
Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文参考訳（メタデータ） (2024-01-04T01:10:56Z)
f-DM: A Multi-stage Diffusion Model via Progressive Signal Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文参考訳（メタデータ） (2022-10-10T18:49:25Z)
Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。 VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文参考訳（メタデータ） (2022-09-14T21:53:27Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。