論文の概要: Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction
- arxiv url: http://arxiv.org/abs/2512.00395v1
- Date: Sat, 29 Nov 2025 08:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.219053
- Title: Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction
- Title(参考訳): より良く、より強く、より速く: MLLMによるテキストマスクの同時予測によるセグメンテーションにおけるトリレンマのタックリング
- Authors: Jiazhen Liu, Mingkuan Feng, Long Chen,
- Abstract要約: 本稿では、このパラダイムを具現化したMLLMである、同時テキスト全マスク予測について述べる。
テキスト応答を生成した後、STAMPは、イメージパッチに対して並列な "fill-in-the-blank"タスクとして扱うことにより、単一のフォワードパス内のセグメンテーションマスク全体を予測する。
この設計は、対立する目的を避けることでMLLMの対話能力を維持し、マスクトークンにリッチで双方向な空間コンテキストを活用することで高いセグメンテーション性能を実現し、例外的な速度を達成する。
- 参考スコア(独自算出の注目度): 10.813064862132379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating segmentation into Multimodal Large Language Models (MLLMs) presents a core trilemma: simultaneously preserving dialogue ability, achieving high segmentation performance, and ensuring fast inference. Prevailing paradigms are forced into a compromise. Embedding prediction methods introduce a conflicting pixel-level objective that degrades the MLLM's general dialogue abilities. The alternative, next-token prediction, reframes segmentation as an autoregressive task, which preserves dialogue but forces a trade-off between poor segmentation performance with sparse outputs or prohibitive inference speeds with rich ones. We resolve this trilemma with all-mask prediction, a novel paradigm that decouples autoregressive dialogue generation from non-autoregressive mask prediction. We present STAMP: Simultaneous Textual All-Mask Prediction, an MLLM that embodies this paradigm. After generating a textual response, STAMP predicts an entire segmentation mask in a single forward pass by treating it as a parallel "fill-in-the-blank" task over image patches. This design maintains the MLLM's dialogue ability by avoiding conflicting objectives, enables high segmentation performance by leveraging rich, bidirectional spatial context for all mask tokens, and achieves exceptional speed. Extensive experiments show that STAMP significantly outperforms state-of-the-art methods across multiple segmentation benchmarks, providing a solution that excels in dialogue, segmentation, and speed without compromise.
- Abstract(参考訳): セグメンテーションをMLLM(Multimodal Large Language Models)に統合することは、対話能力を同時に保持し、高いセグメンテーション性能を達成し、高速な推論を保証するという、コアトリレンマを提示する。
一般的なパラダイムは妥協を余儀なくされます。
埋め込み予測法は、MLLMの一般的な対話能力を低下させる画素レベルの矛盾する目的を導入する。
ダイアログを保存するが、粗末なセグメンテーション性能とスパースアウトプットとのトレードオフや、リッチなセグメンテーションによる禁止推論速度とのトレードオフを強制する。
我々はこのトリレンマを、非自己回帰マスク予測から自己回帰対話生成を分離する新しいパラダイムであるオールマスク予測で解決する。
本稿では、このパラダイムを具現化したMLLMである、同時テキスト全マスク予測について述べる。
テキスト応答を生成した後、STAMPは、イメージパッチに対して並列な "fill-in-the-blank"タスクとして扱うことにより、単一のフォワードパス内のセグメンテーションマスク全体を予測する。
この設計は、競合する目的を回避してMLLMの対話能力を維持し、マスクトークンにリッチで双方向な空間コンテキストを活用して高いセグメンテーション性能を実現し、例外的な速度を達成する。
大規模な実験により、STAMPは複数のセグメンテーションベンチマークで最先端の手法を大幅に上回っており、妥協なしに対話、セグメンテーション、スピードに優れたソリューションを提供する。
関連論文リスト
- Seg-VAR: Image Segmentation with Visual Autoregressive Modeling [60.79579744943664]
本稿では,セグメンテーションを条件付き自己回帰マスク生成問題として再考する新しい枠組みを提案する。
これは、差別的な学習を潜在的な学習プロセスに置き換えることによって達成される。
提案手法は,(1)入力画像から潜時前処理を生成する画像エンコーダ,(2)分割マスクを離散潜時トークンにマッピングする空間認識セグレット(セグメンテーションマスクの潜時表現)エンコーダ,(3)これらの潜時マスクを再構成するデコーダの3つのコアコンポーネントを含む。
論文 参考訳(メタデータ) (2025-11-16T13:36:19Z) - ARGenSeg: Image Segmentation with Autoregressive Image Generation Model [46.837184955843355]
本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。
提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-23T17:58:26Z) - Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models [13.575063025878208]
マスク付き拡散言語モデルは高速で非自己回帰的なテキスト生成を約束する。
モデルの信頼性に基づいてアンマスクするトークンを選択する既存のサンプルは、複数の位置を並列にアンマスクする際のインタラクションを無視する。
DUS(Dilated Unmasking Scheduler)は、列位置を非隣接拡張群に分割し、それらを並列に分割する推論のみのプランナーフリーな手法である。
論文 参考訳(メタデータ) (2025-06-23T18:49:23Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。