Fugu-MT 論文翻訳(概要): GenMask: Adapting DiT for Segmentation via Direct Mask

論文の概要: GenMask: Adapting DiT for Segmentation via Direct Mask

arxiv url: http://arxiv.org/abs/2603.23906v1
Date: Wed, 25 Mar 2026 03:52:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.11693
Title: GenMask: Adapting DiT for Segmentation via Direct Mask
Title（参考訳）: GenMask: ダイレクトマスクによるセグメンテーションにDiTを適用する
Authors: Yuhuan Yang, Xianwei Zhuang, Yuxuan Cai, Chaofan Ma, Shuai Bai, Jiangchao Yao, Ya Zhang, Junyang Lin, Yanfeng Wang,
Abstract要約: 間接的な適応の代わりに、セグメント化タスクは生成的な方法で直接訓練されるべきである、と我々は主張する。分割のための極度のノイズレベルと画像生成のための中等度雑音を強調する二元マスクの時間ステップサンプリング戦略を導入する。 GenMaskは,RGB空間における色鮮やかな画像だけでなく,黒と白のセグメンテーションマスクを生成するためのDiTトレインである。
参考スコア（独自算出の注目度）: 81.54526445834294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent approaches for segmentation have leveraged pretrained generative models as feature extractors, treating segmentation as a downstream adaptation task via indirect feature retrieval. This implicit use suffers from a fundamental misalignment in representation. It also depends heavily on indirect feature extraction pipelines, which complicate the workflow and limit adaptation. In this paper, we argue that instead of indirect adaptation, segmentation tasks should be trained directly in a generative manner. We identify a key obstacle to this unified formulation: VAE latents of binary masks are sharply distributed, noise robust, and linearly separable, distinct from natural image latents. To bridge this gap, we introduce timesteps sampling strategy for binary masks that emphasizes extreme noise levels for segmentation and moderate noise for image generation, enabling harmonious joint training. We present GenMask, a DiT trains to generate black-and-white segmentation masks as well as colorful images in RGB space under the original generative objective. GenMask preserves the original DiT architecture while removing the need of feature extraction pipelines tailored for segmentation tasks. Empirically, GenMask attains state-of-the-art performance on referring and reasoning segmentation benchmarks and ablations quantify the contribution of each component.
Abstract（参考訳）: 近年のセグメンテーションのアプローチでは、事前学習した生成モデルを特徴抽出器として活用し、間接的特徴検索により、セグメンテーションを下流適応タスクとして扱う。この暗黙の用法は、表現の根本的なミスアライメントに悩まされる。また、ワークフローを複雑にし適応を制限する間接的な機能抽出パイプラインにも大きく依存する。本稿では、間接的適応の代わりに、セグメント化タスクを直接生成的に訓練すべきである、と論じる。二つのマスクのVAE潜伏剤は鋭く分布し、ノイズは頑健であり、自然な画像潜伏剤とは異なる線形分離可能である。このギャップを埋めるために、分割のための極端なノイズレベルと画像生成のための適度なノイズを強調し、調和したジョイントトレーニングを可能にするバイナリマスクのタイムステップサンプリング戦略を導入する。 GenMaskは,RGB空間における色鮮やかな画像だけでなく,黒と白のセグメンテーションマスクを生成するためのDiTトレインである。 GenMaskは、セグメンテーションタスクに適した機能抽出パイプラインの必要性を取り除きながら、オリジナルのDiTアーキテクチャを保存する。実証的に、GenMaskはセグメント化ベンチマークとアブレーションの参照と推論に関する最先端のパフォーマンスを達成し、各コンポーネントの貢献を定量化する。

関連論文リスト

GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文参考訳（メタデータ） (2025-08-27T16:28:15Z)
SeeDiff: Off-the-Shelf Seeded Mask Generation from Diffusion Models [16.109077391631917]
我々は,クロスアテンションだけで非常に粗い物体の局在が得られ,初期種子が得られることを示した。また、単純なテキスト誘導合成画像は、一様背景を持つことが多く、対応を見つけるのが容易であることも観察した。提案手法はSeeDiffと呼ばれ,Stable Diffusionから高品質なマスクをオフザシェルフで生成する。
論文参考訳（メタデータ） (2025-07-26T05:44:00Z)
A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting [2.7563282688229664]
この研究は安定拡散の上に構築され、汎視的セグメンテーションに対する潜時拡散アプローチを提案する。トレーニングは,(1)部分分割マスクを潜伏空間に投影する浅層オートエンコーダの訓練,(2)潜伏空間における画像条件付きサンプリングを可能にする拡散モデルの訓練,の2段階からなる。
論文参考訳（メタデータ） (2024-01-18T18:59:19Z)
SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete Diffusion Process [102.18226145874007]
そこで我々は,異なるセグメンテーションモデルによって生成されるオブジェクトマスクの品質を高めるために,SegRefinerと呼ばれるモデルに依存しないソリューションを提案する。 SegRefinerは粗いマスクを入力として取り、離散拡散プロセスを用いてそれらを洗練する。さまざまな種類の粗いマスクにわたるセグメンテーションメトリックとバウンダリメトリックの両方を一貫して改善する。
論文参考訳（メタデータ） (2023-12-19T18:53:47Z)
DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文参考訳（メタデータ） (2023-06-06T06:33:32Z)
Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。 3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-30T13:57:21Z)
Generative Semantic Segmentation [40.57488730457299]
セマンティックセグメンテーションのための生成学習手法を提案する。画像条件付きマスク生成問題として,セマンティックセグメンテーションを論じる。実験により,GASは標準的なセマンティックセグメンテーション設定において,先行技術と競合して動作可能であることが示された。
論文参考訳（メタデータ） (2023-03-20T17:55:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。