論文の概要: ARGenSeg: Image Segmentation with Autoregressive Image Generation Model
- arxiv url: http://arxiv.org/abs/2510.20803v1
- Date: Thu, 23 Oct 2025 17:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.538075
- Title: ARGenSeg: Image Segmentation with Autoregressive Image Generation Model
- Title(参考訳): ARGenSeg:自己回帰画像生成モデルによる画像分割
- Authors: Xiaolong Wang, Lixiang Ru, Ziyuan Huang, Kaixiang Ji, Dandan Zheng, Jingdong Chen, Jun Zhou,
- Abstract要約: 本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。
提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
- 参考スコア(独自算出の注目度): 46.837184955843355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel AutoRegressive Generation-based paradigm for image Segmentation (ARGenSeg), achieving multimodal understanding and pixel-level perception within a unified framework. Prior works integrating image segmentation into multimodal large language models (MLLMs) typically employ either boundary points representation or dedicated segmentation heads. These methods rely on discrete representations or semantic prompts fed into task-specific decoders, which limits the ability of the MLLM to capture fine-grained visual details. To address these challenges, we introduce a segmentation framework for MLLM based on image generation, which naturally produces dense masks for target objects. We leverage MLLM to output visual tokens and detokenize them into images using an universal VQ-VAE, making the segmentation fully dependent on the pixel-level understanding of the MLLM. To reduce inference latency, we employ a next-scale-prediction strategy to generate required visual tokens in parallel. Extensive experiments demonstrate that our method surpasses prior state-of-the-art approaches on multiple segmentation datasets with a remarkable boost in inference speed, while maintaining strong understanding capabilities.
- Abstract(参考訳): 本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image Segmentation)を提案する。
イメージセグメンテーションをマルチモーダル大言語モデル(MLLM)に統合する以前の研究は、一般的に境界点表現または専用セグメンテーションヘッドを使用する。
これらの方法は、タスク固有のデコーダに入力される個別表現やセマンティックプロンプトに依存しており、細かな視覚的詳細をキャプチャするMLLMの能力を制限している。
これらの課題に対処するために、画像生成に基づくMLLMのセグメンテーションフレームワークを導入し、ターゲットオブジェクトの密集マスクを自然に生成する。
MLLMを利用して視覚トークンを出力し,VQ-VAEを用いて画像に復号化することにより,MLLMのピクセルレベルの理解に完全に依存する。
推論遅延を低減するために、我々は次のスケール予測戦略を用いて、必要なビジュアルトークンを並列に生成する。
大規模な実験により,提案手法は複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させるとともに,強い理解能力を維持した。
関連論文リスト
- UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning [83.68366772745689]
視覚的なプロンプト入力を柔軟に解釈し,マスクによる応答を生成できる大規模マルチモーダルモデルUniPixelを提案する。
具体的には、UniPixelは、要求に応じて視覚的なプロンプトを処理し、関連するマスクを生成し、推論中にこれらの中間ポインタに対してその後の推論条件を実行する。
提案手法の有効性は,画素レベルの参照/セグメンテーションや画像・ビデオにおけるオブジェクト中心の理解など,多種多様なタスクを対象とした10のベンチマークで検証されている。
論文 参考訳(メタデータ) (2025-09-22T17:59:40Z) - Re-purposing SAM into Efficient Visual Projectors for MLLM-Based Referring Image Segmentation [9.120581644616488]
画像中の「視覚的言葉」を識別するために,意味的スーパーピクセルを用いた新しい意味的視覚プロジェクタを提案する。
セマンティック・スーパーピクセルを視覚トークンとして圧縮・投影することにより,シーンに応じたトークンシーケンスを適応的に短縮する。
実験の結果,性能を損なうことなく視覚トークンを93%削減できることがわかった。
論文 参考訳(メタデータ) (2025-09-17T04:04:08Z) - X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。
テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。
インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文 参考訳(メタデータ) (2025-08-06T17:19:10Z) - LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。
マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文 参考訳(メタデータ) (2025-05-26T02:22:41Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing [22.729750410621826]
GeoPixは、画像理解機能をピクセルレベルまで拡張するRS MLLMである。
RS画像におけるマルチスケールオブジェクトのセグメンテーションを容易にするため、クラスワイズ学習可能なメモリモジュールをマスク予測器に統合する。
画素レベルの RS MLLM をトレーニングするための大規模データセットの欠如に対処するため,GeoPixInstruct データセットを構築した。
論文 参考訳(メタデータ) (2025-01-12T14:45:27Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。