論文の概要: ROSE: Revolutionizing Open-Set Dense Segmentation with Patch-Wise Perceptual Large Multimodal Model
- arxiv url: http://arxiv.org/abs/2412.00153v1
- Date: Fri, 29 Nov 2024 07:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:48:32.728800
- Title: ROSE: Revolutionizing Open-Set Dense Segmentation with Patch-Wise Perceptual Large Multimodal Model
- Title(参考訳): ROSE:Patch-Wise Perceptual Large Multimodal Modelによるオープンセットディッセンスセグメンテーションの革新
- Authors: Kunyang Han, Yibo Hu, Mengxue Qu, Hailin Shi, Yao Zhao, Yunchao Wei,
- Abstract要約: 本稿では,高密度マスク予測とオープンカテゴリ生成が可能な,革命的オープンセット高密度セグメンテーションLMMであるROSEを提案する。
本手法は,各画像パッチを関心領域の独立領域として扱い,密集マスクとスパースマスクを同時に予測する。
- 参考スコア(独自算出の注目度): 75.750699619993
- License:
- Abstract: Advances in CLIP and large multimodal models (LMMs) have enabled open-vocabulary and free-text segmentation, yet existing models still require predefined category prompts, limiting free-form category self-generation. Most segmentation LMMs also remain confined to sparse predictions, restricting their applicability in open-set environments. In contrast, we propose ROSE, a Revolutionary Open-set dense SEgmentation LMM, which enables dense mask prediction and open-category generation through patch-wise perception. Our method treats each image patch as an independent region of interest candidate, enabling the model to predict both dense and sparse masks simultaneously. Additionally, a newly designed instruction-response paradigm takes full advantage of the generation and generalization capabilities of LMMs, achieving category prediction independent of closed-set constraints or predefined categories. To further enhance mask detail and category precision, we introduce a conversation-based refinement paradigm, integrating the prediction result from previous step with textual prompt for revision. Extensive experiments demonstrate that ROSE achieves competitive performance across various segmentation tasks in a unified framework. Code will be released.
- Abstract(参考訳): CLIPと大規模マルチモーダルモデル(LMM)の進歩により、オープン語彙と自由テキストセグメンテーションが可能になったが、既存のモデルでは未定義のカテゴリプロンプトが必要であり、自由形式のカテゴリ自己生成が制限されている。
ほとんどのセグメンテーション LMM はスパース予測に限定されており、オープンセット環境での適用性を制限する。
対照的にROSEは革命的オープンセットの高密度セグメンテーション LMM であり、パッチワイズ認識による密マスク予測とオープンカテゴリ生成を可能にする。
本手法は,各画像パッチを関心領域の独立領域として扱い,密集マスクとスパースマスクを同時に予測する。
さらに、新たに設計された命令応答パラダイムは、LMMの生成と一般化能力を最大限に活用し、クローズドセット制約や事前定義されたカテゴリに依存しないカテゴリ予測を実現する。
マスクの詳細とカテゴリの精度をさらに高めるため,前ステップからの予測結果をテキストによる修正プロンプトと統合し,会話に基づく改善パラダイムを導入する。
広範にわたる実験により、ROSEは統一されたフレームワークにおける様々なセグメンテーションタスク間での競合性能を実証した。
コードはリリースされる。
関連論文リスト
- FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation [47.0028071183214]
FrozenSegは、局所化基盤モデル(SAMなど)とViLモデル(CLIPなど)から抽出した意味知識から空間知識を統合するように設計されている。
FrozenSegは、さまざまなセグメンテーションベンチマークにまたがって最先端の結果を前進させ、COCOパン光学データのみにトレーニングし、ゼロショットでテストする。
論文 参考訳(メタデータ) (2024-09-05T13:36:50Z) - MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Image Segmentation [26.667974865352708]
MROVSegは、オープンボキャブラリイメージセグメンテーションのためのマルチレゾリューショントレーニングフレームワークで、単一の事前トレーニングされたCLIPバックボーンを備えている。
スライドウィンドウを使用して、高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズにマッチする。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:58:48Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - EGMM: an Evidential Version of the Gaussian Mixture Model for Clustering [22.586481334904793]
本稿では,信念関数の理論的枠組みにおいて,EGMM(evidential GMM)と呼ばれるモデルに基づくクラスタリングアルゴリズムを提案する。
EGMMのパラメータは、特別に設計された期待最大化(EM)アルゴリズムによって推定される。
提案したEGMMは従来のGMMと同じくらい単純であるが,検討されたデータセットに対して,より情報に富む明確な分割を生成することができる。
論文 参考訳(メタデータ) (2020-10-03T11:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。