Fugu-MT 論文翻訳(概要): Diffusion Features to Bridge Domain Gap for Semantic Segmentation

論文の概要: Diffusion Features to Bridge Domain Gap for Semantic Segmentation

arxiv url: http://arxiv.org/abs/2406.00777v2
Date: Thu, 21 Nov 2024 09:10:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.158683
Title: Diffusion Features to Bridge Domain Gap for Semantic Segmentation
Title（参考訳）: セマンティックセグメンテーションのためのブリッジ領域ギャップの拡散特性
Authors: Yuxiang Ji, Boyong He, Chenyuan Qu, Zhuoyue Tan, Chuan Qin, Liaoni Wu,
Abstract要約: 本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
参考スコア（独自算出の注目度）: 2.8616666231199424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained diffusion models have demonstrated remarkable proficiency in synthesizing images across a wide range of scenarios with customizable prompts, indicating their effective capacity to capture universal features. Motivated by this, our study delves into the utilization of the implicit knowledge embedded within diffusion models to address challenges in cross-domain semantic segmentation. This paper investigates the approach that leverages the sampling and fusion techniques to harness the features of diffusion models efficiently. We propose DIffusion Feature Fusion (DIFF) as a backbone use for extracting and integrating effective semantic representations through the diffusion process. By leveraging the strength of text-to-image generation capability, we introduce a new training framework designed to implicitly learn posterior knowledge from it. Through rigorous evaluation in the contexts of domain generalization semantic segmentation, we establish that our methodology surpasses preceding approaches in mitigating discrepancies across distinct domains and attains the state-of-the-art (SOTA) benchmark.
Abstract（参考訳）: 事前学習された拡散モデルは、カスタマイズ可能なプロンプトを持つ広範囲のシナリオで画像の合成に顕著な習熟性を示し、普遍的な特徴を捉えるのに有効な能力を示している。そこで本研究では,拡散モデルに埋め込まれた暗黙の知識を活用し,ドメイン間セマンティックセグメンテーションの課題に対処する。本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。拡散過程を通じて効果的な意味表現を抽出・統合するためのバックボーンとして拡散特徴融合(DIFF)を提案する。テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。ドメイン一般化セマンティックセグメンテーションの文脈における厳密な評価により、我々の手法は異なるドメイン間での相違を緩和し、SOTA(State-of-the-art)ベンチマークを達成している。

関連論文リスト

Vision-Language Semantic Aggregation Leveraging Foundation Model for Generalizable Medical Image Segmentation [5.597576681565333]
本稿では,期待最大化(EM)アグリゲーション機構とテキストガイド付きPixelデコーダを提案する。後者は、ドメイン不変のテキスト知識を利用して、深い視覚的表現を効果的に導くことによって、意味的ギャップを埋めるように設計されている。提案手法は,複数の領域一般化ベンチマークにおいて,既存のSOTA手法より一貫して優れている。
論文参考訳（メタデータ） (2025-09-10T13:16:30Z)
Novel Category Discovery with X-Agent Attention for Open-Vocabulary Semantic Segmentation [48.806000388608005]
提案するX-Agentは,「潜時意味認識エージェント」を用いてモーダル間注意機構を編成する,革新的なOVSSフレームワークである。 X-Agentは最先端のパフォーマンスを実現し、潜伏したセマンティックサリエンシを効果的に強化する。
論文参考訳（メタデータ） (2025-09-01T09:01:58Z)
Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文参考訳（メタデータ） (2025-08-07T02:51:10Z)
FedDifRC: Unlocking the Potential of Text-to-Image Diffusion Models in Heterogeneous Federated Learning [12.366529890744822]
フェデレーション学習は、プライバシを保護しながら、参加者間で協調的にモデルをトレーニングすることを目的としている。このパラダイムの大きな課題のひとつは、複数のクライアント間で偏ったデータ優先がモデルの一貫性とパフォーマンスを損なう、データ不均一性の問題である。本稿では,拡散表現協調(FedDifRC)を用いた新しいフェデレーションパラダイムに強力な拡散モデルを導入する。 FedDifRCは、テキスト駆動拡散コントラストとノイズ駆動拡散正規化であり、豊富なクラス関連セマンティック情報と一貫した収束信号を提供することを目的としている。
論文参考訳（メタデータ） (2025-07-09T01:57:57Z)
Boundless Across Domains: A New Paradigm of Adaptive Feature and Cross-Attention for Domain Generalization in Medical Image Segmentation [1.93061220186624]
ドメイン不変表現学習は、ドメイン一般化の強力な方法である。従来のアプローチでは、高い計算要求、トレーニングの不安定性、高次元データによる限られた有効性といった課題に直面していた。本研究では,分布空間を探索しながら分布外サンプルを生成する適応的特徴ブレンディング(AFB)手法を提案する。
論文参考訳（メタデータ） (2024-11-22T12:06:24Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文参考訳（メタデータ） (2023-11-22T09:18:49Z)
Prompting Diffusion Representations for Cross-Domain Semantic Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文参考訳（メタデータ） (2023-07-05T09:28:25Z)
Variance-Preserving-Based Interpolation Diffusion Models for Speech Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文参考訳（メタデータ） (2023-06-14T14:22:22Z)
Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-13T18:05:36Z)
Focus on Semantic Consistency for Cross-domain Crowd Understanding [34.560447389853614]
いくつかのドメイン適応アルゴリズムは、合成データでモデルをトレーニングすることでそれを解放しようとする。その結果,背景領域における推定誤差が既存手法の性能を阻害していることが判明した。本稿では,ドメイン適応手法を提案する。
論文参考訳（メタデータ） (2020-02-20T08:51:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。