論文の概要: The Missing Point in Vision Transformers for Universal Image Segmentation
- arxiv url: http://arxiv.org/abs/2505.19795v1
- Date: Mon, 26 May 2025 10:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.353857
- Title: The Missing Point in Vision Transformers for Universal Image Segmentation
- Title(参考訳): ユニバーサル・イメージ・セグメンテーションのための視覚変換器の欠落点
- Authors: Sajjad Shahabodini, Mobina Mansoori, Farnoush Bayatmakou, Jamshid Abouei, Konstantinos N. Plataniotis, Arash Mohammadi,
- Abstract要約: マスク生成を分類から分離する2段階セグメンテーションフレームワークであるViT-Pを紹介する。
ViT-Pは、事前訓練のないアダプタとして機能し、様々な事前訓練された視覚変換器の統合を可能にする。
COCO、ADE20K、Cityscapesの各データセットにわたる実験は、ViT-Pの有効性を検証する。
- 参考スコア(独自算出の注目度): 17.571552686063335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image segmentation remains a challenging task in computer vision, demanding robust mask generation and precise classification. Recent mask-based approaches yield high-quality masks by capturing global context. However, accurately classifying these masks, especially in the presence of ambiguous boundaries and imbalanced class distributions, remains an open challenge. In this work, we introduce ViT-P, a novel two-stage segmentation framework that decouples mask generation from classification. The first stage employs a proposal generator to produce class-agnostic mask proposals, while the second stage utilizes a point-based classification model built on the Vision Transformer (ViT) to refine predictions by focusing on mask central points. ViT-P serves as a pre-training-free adapter, allowing the integration of various pre-trained vision transformers without modifying their architecture, ensuring adaptability to dense prediction tasks. Furthermore, we demonstrate that coarse and bounding box annotations can effectively enhance classification without requiring additional training on fine annotation datasets, reducing annotation costs while maintaining strong performance. Extensive experiments across COCO, ADE20K, and Cityscapes datasets validate the effectiveness of ViT-P, achieving state-of-the-art results with 54.0 PQ on ADE20K panoptic segmentation, 87.4 mIoU on Cityscapes semantic segmentation, and 63.6 mIoU on ADE20K semantic segmentation. The code and pretrained models are available at: https://github.com/sajjad-sh33/ViT-P}{https://github.com/sajjad-sh33/ViT-P.
- Abstract(参考訳): イメージセグメンテーションはコンピュータビジョンにおいて依然として困難な課題であり、堅牢なマスク生成と正確な分類を必要としている。
最近のマスクベースのアプローチは、グローバルな文脈を捉えて高品質なマスクを生み出す。
しかし、これらのマスクを正確に分類することは、特に曖昧な境界と不均衡なクラス分布の存在において、未解決の課題である。
本研究では,マスク生成を分類から分離する2段階セグメンテーションフレームワークであるViT-Pを紹介する。
第1段階では、クラスに依存しないマスクの提案を作成するために提案ジェネレータを使用し、第2段階ではビジョントランスフォーマー(ViT)上に構築されたポイントベースの分類モデルを使用して、マスク中心点に着目して予測を洗練する。
ViT-Pは、事前学習のないアダプタとして機能し、アーキテクチャを変更することなく、様々な事前学習された視覚変換器の統合を可能にし、密集した予測タスクへの適応性を確保する。
さらに、粗いボックスアノテーションと境界ボックスアノテーションは、詳細なアノテーションデータセットのトレーニングを必要とせずに分類を効果的に強化し、強力な性能を維持しながらアノテーションコストを低減できることを示した。
COCO、ADE20K、Cityscapesのデータセットにわたる大規模な実験により、ViT-Pの有効性が検証され、ADE20Kにおける54.0 PQ、Cityscapesのセマンティックセマンティックセマンティクスにおける87.4 mIoU、ADE20Kのセマンティクスセマンティクスにおける63.6 mIoUが達成された。
コードと事前訓練されたモデルは、https://github.com/sajjad-sh33/ViT-P}{https://github.com/sajjad-sh33/ViT-Pで利用可能である。
関連論文リスト
- High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。
低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文 参考訳(メタデータ) (2024-12-16T05:44:45Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Pyramid Fusion Transformer for Semantic Segmentation [44.57867861592341]
マルチスケール特徴量を持つマスク毎のセマンティックセマンティックセグメンテーションのためのトランスフォーマベースピラミッドフュージョントランス (PFT) を提案する。
広く使われている3つのセマンティックセグメンテーションデータセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-01-11T16:09:25Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。