論文の概要: SAMTok: Representing Any Mask with Two Words
- arxiv url: http://arxiv.org/abs/2601.16093v1
- Date: Thu, 22 Jan 2026 16:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.653898
- Title: SAMTok: Representing Any Mask with Two Words
- Title(参考訳): SAMTok: 任意のマスクを2つの単語で表現する
- Authors: Yikang Zhou, Tao Zhang, Dengxian Gong, Yuanzheng Wu, Ye Tian, Haochen Wang, Haobo Yuan, Jiacong Wang, Lu Qi, Hao Fei, Anran Wang, Zhuochen Wang, Yujing Wang, Cheng Chen, Shunping Ji, Xiangtai Li,
- Abstract要約: 我々は、任意の領域マスクを2つの特別なトークンに変換する離散マスクトークン化器SAMTokを提案する。
マスクを新しい言語トークンとして扱うことで、SAMTokは基本的なMLLMがピクセル単位の能力を学ぶことができる。
QwenVL-SAMTokは、領域キャプション、領域VQA、接地会話、セグメンテーション参照、シーングラフ解析、マルチラウンドインタラクティブセグメンテーションに関する最先端または同等の結果を得る。
- 参考スコア(独自算出の注目度): 70.74140779649856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pixel-wise capabilities are essential for building interactive intelligent systems. However, pixel-wise multi-modal LLMs (MLLMs) remain difficult to scale due to complex region-level encoders, specialized segmentation decoders, and incompatible training objectives. To address these challenges, we present SAMTok, a discrete mask tokenizer that converts any region mask into two special tokens and reconstructs the mask using these tokens with high fidelity. By treating masks as new language tokens, SAMTok enables base MLLMs (such as the QwenVL series) to learn pixel-wise capabilities through standard next-token prediction and simple reinforcement learning, without architectural modifications and specialized loss design. SAMTok builds on SAM2 and is trained on 209M diverse masks using a mask encoder and residual vector quantizer to produce discrete, compact, and information-rich tokens. With 5M SAMTok-formatted mask understanding and generation data samples, QwenVL-SAMTok attains state-of-the-art or comparable results on region captioning, region VQA, grounded conversation, referring segmentation, scene graph parsing, and multi-round interactive segmentation. We further introduce a textual answer-matching reward that enables efficient reinforcement learning for mask generation, delivering substantial improvements on GRES and GCG benchmarks. Our results demonstrate a scalable and straightforward paradigm for equipping MLLMs with strong pixel-wise capabilities. Our code and models are available.
- Abstract(参考訳): インタラクティブなインテリジェントシステムを構築するには、ピクセルワイズ機能が不可欠だ。
しかし、複雑な領域レベルのエンコーダ、特別なセグメンテーションデコーダ、互換性のないトレーニング目的のために、画素単位のマルチモーダルLDM(MLLM)はスケールが難しいままである。
これらの課題に対処するため、SAMTokは、任意の領域マスクを2つの特別なトークンに変換し、これらのトークンを高い忠実度で再構成する離散マスクトークンである。
マスクを新しい言語トークンとして扱うことで、SAMTokは、基本的なMLLM(QwenVLシリーズなど)が、アーキテクチャ上の変更や特別な損失設計なしに、標準的な次世代の予測と単純な強化学習を通じてピクセル単位の能力を学ぶことができる。
SAMTokはSAM2上に構築され、マスクエンコーダと残留ベクトル量子化器を用いて209万種類のマスクで訓練され、離散的でコンパクトで情報豊富なトークンを生成する。
5M SAMTok形式のマスク理解と生成データサンプルにより、QwenVL-SAMTokは、領域キャプション、領域VQA、接地会話、セグメンテーション、シーングラフ解析、複数ラウンドの対話的セグメンテーションについて、最先端または同等の結果が得られる。
さらに、マスク生成のための効率的な強化学習を可能にし、GRESおよびGCGベンチマークを大幅に改善するテキスト応答マッチング報酬を導入する。
本研究は,MLLMの高機能化を実現するための,スケーラブルで簡単なパラダイムを実証するものである。
私たちのコードとモデルは利用可能です。
関連論文リスト
- Evaluating SAM2 for Video Semantic Segmentation [60.157605818225186]
Anything Model 2 (SAM2)は、画像とビデオの両方において、迅速な視覚オブジェクトのセグメンテーションのための強力な基盤モデルであることが証明されている。
本稿では, SAM2 から高密度ビデオセマンティック (VSS) への拡張について検討する。
我々の実験は、SAM2を利用することでVSSの全体的な性能が向上することを示唆している。
論文 参考訳(メタデータ) (2025-12-01T15:15:16Z) - LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。
マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文 参考訳(メタデータ) (2025-05-26T02:22:41Z) - Pro2SAM: Mask Prompt to SAM with Grid Points for Weakly Supervised Object Localization [54.91271106816616]
本稿では,WSOLタスクのグリッドポイントを持つSAM(Pro2SAM)ネットワークに対して,革新的なマスクプロンプトを提案する。
まず,グローバルトークン変換器(GTFormer)を設計し,フレキシブルマスクプロンプトとして粗粒のフォアグラウンドマップを生成する。
第2に,フォアグラウンドマスクの確率を最大化するために,密度の高いプロンプトとしてグリッドポイントをSAMに配信する。
論文 参考訳(メタデータ) (2025-05-08T02:44:53Z) - HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model [6.641903410779405]
最大32個のトークンを持つセグメンテーションマスクを表すHiMTok(Hierarchical Mask Tokenizer)を提案する。
HiMTokは、コンパクトで粗いマスク表現を可能にし、次世代の予測パラダイムとよく一致している。
分割と視覚能力の進歩的な学習のための3段階のトレーニングレシピを開発し,階層的なマスクロスを特徴とし,より効果的な粗い学習を行う。
論文 参考訳(メタデータ) (2025-03-17T10:29:08Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing [22.729750410621826]
GeoPixは、画像理解機能をピクセルレベルまで拡張するRS MLLMである。
RS画像におけるマルチスケールオブジェクトのセグメンテーションを容易にするため、クラスワイズ学習可能なメモリモジュールをマスク予測器に統合する。
画素レベルの RS MLLM をトレーニングするための大規模データセットの欠如に対処するため,GeoPixInstruct データセットを構築した。
論文 参考訳(メタデータ) (2025-01-12T14:45:27Z) - High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。
低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文 参考訳(メタデータ) (2024-12-16T05:44:45Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。