論文の概要: Seg-VAR: Image Segmentation with Visual Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2511.12594v1
- Date: Sun, 16 Nov 2025 13:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.397563
- Title: Seg-VAR: Image Segmentation with Visual Autoregressive Modeling
- Title(参考訳): Seg-VAR:視覚的自己回帰モデリングによる画像分割
- Authors: Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Hengshuang Zhao,
- Abstract要約: 本稿では,セグメンテーションを条件付き自己回帰マスク生成問題として再考する新しい枠組みを提案する。
これは、差別的な学習を潜在的な学習プロセスに置き換えることによって達成される。
提案手法は,(1)入力画像から潜時前処理を生成する画像エンコーダ,(2)分割マスクを離散潜時トークンにマッピングする空間認識セグレット(セグメンテーションマスクの潜時表現)エンコーダ,(3)これらの潜時マスクを再構成するデコーダの3つのコアコンポーネントを含む。
- 参考スコア(独自算出の注目度): 60.79579744943664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While visual autoregressive modeling (VAR) strategies have shed light on image generation with the autoregressive models, their potential for segmentation, a task that requires precise low-level spatial perception, remains unexplored. Inspired by the multi-scale modeling of classic Mask2Former-based models, we propose Seg-VAR, a novel framework that rethinks segmentation as a conditional autoregressive mask generation problem. This is achieved by replacing the discriminative learning with the latent learning process. Specifically, our method incorporates three core components: (1) an image encoder generating latent priors from input images, (2) a spatial-aware seglat (a latent expression of segmentation mask) encoder that maps segmentation masks into discrete latent tokens using a location-sensitive color mapping to distinguish instances, and (3) a decoder reconstructing masks from these latents. A multi-stage training strategy is introduced: first learning seglat representations via image-seglat joint training, then refining latent transformations, and finally aligning image-encoder-derived latents with seglat distributions. Experiments show Seg-VAR outperforms previous discriminative and generative methods on various segmentation tasks and validation benchmarks. By framing segmentation as a sequential hierarchical prediction task, Seg-VAR opens new avenues for integrating autoregressive reasoning into spatial-aware vision systems. Code will be available at https://github.com/rkzheng99/Seg-VAR.
- Abstract(参考訳): 視覚的自己回帰モデリング(VAR)戦略は、自己回帰モデルによる画像生成に光を当てているが、それらのセグメンテーションの可能性は、正確な低レベル空間知覚を必要とするタスクである。
従来のMask2Formerモデルを用いたマルチスケールモデリングに着想を得て,セグメンテーションを条件付き自己回帰マスク生成問題として再考する新しいフレームワークであるSeg-VARを提案する。
これは、差別的な学習を潜在的な学習プロセスに置き換えることによって達成される。
具体的には,(1)入力画像から遅延先行を生成させる画像エンコーダ,(2)セグメント化マスクを位置感性カラーマッピングを用いて離散潜在トークンにマッピングする空間認識セグレット(セグメント化マスクの潜時表現)エンコーダ,(3)これらの潜時マスクを再構成するデコーダの3つのコアコンポーネントを含む。
多段階のトレーニング戦略が導入された。まず、イメージ・セグレート・ジョイント・トレーニングを通じてセグラト表現を学習し、次にラテント変換を精製し、最後に、画像エンコーダ由来のラテントとセグラト分布を整列する。
実験により、Seg-VARは、様々なセグメンテーションタスクや検証ベンチマークにおいて、以前の差別的および生成的手法より優れていることが示された。
セグメンテーションを逐次階層的予測タスクとすることで、Seg-VARは自己回帰推論を空間認識型視覚システムに統合するための新たな道を開く。
コードはhttps://github.com/rkzheng99/Seg-VARで入手できる。
関連論文リスト
- ARGenSeg: Image Segmentation with Autoregressive Image Generation Model [46.837184955843355]
本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。
提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-23T17:58:26Z) - GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。
近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。
生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。
実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文 参考訳(メタデータ) (2025-08-27T16:28:15Z) - LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。
マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文 参考訳(メタデータ) (2025-05-26T02:22:41Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model [6.641903410779405]
最大32個のトークンを持つセグメンテーションマスクを表すHiMTok(Hierarchical Mask Tokenizer)を提案する。
HiMTokは、コンパクトで粗いマスク表現を可能にし、次世代の予測パラダイムとよく一致している。
分割と視覚能力の進歩的な学習のための3段階のトレーニングレシピを開発し,階層的なマスクロスを特徴とし,より効果的な粗い学習を行う。
論文 参考訳(メタデータ) (2025-03-17T10:29:08Z) - SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - Robust One-shot Segmentation of Brain Tissues via Image-aligned Style
Transformation [13.430851964063534]
本稿では,脳組織のワンショットセグメンテーションのための2モデル反復学習を強化するために,新しい画像整列型変換を提案する。
2つの公開データセットによる実験結果から,1)完全教師付き手法と比較して,提案手法の競合セグメンテーション性能が向上し,2)Diceの平均値が4.67%向上した他の最先端技術よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-26T09:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。