論文の概要: CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation
- arxiv url: http://arxiv.org/abs/2305.11481v3
- Date: Wed, 14 Feb 2024 15:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 20:12:37.092002
- Title: CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation
- Title(参考訳): CM-MaskSD:画像セグメント参照のためのクロスモダリティ仮設自己蒸留
- Authors: Wenxuan Wang, Jing Liu, Xingjian He, Yisi Zhang, Chen Chen, Jiachen
Shen, Yan Zhang, Jiangyun Li
- Abstract要約: 本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 29.885991324519463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation (RIS) is a fundamental vision-language task that
intends to segment a desired object from an image based on a given natural
language expression. Due to the essentially distinct data properties between
image and text, most of existing methods either introduce complex designs
towards fine-grained vision-language alignment or lack required dense
alignment, resulting in scalability issues or mis-segmentation problems such as
over- or under-segmentation. To achieve effective and efficient fine-grained
feature alignment in the RIS task, we explore the potential of masked
multimodal modeling coupled with self-distillation and propose a novel
cross-modality masked self-distillation framework named CM-MaskSD, in which our
method inherits the transferred knowledge of image-text semantic alignment from
CLIP model to realize fine-grained patch-word feature alignment for better
segmentation accuracy. Moreover, our CM-MaskSD framework can considerably boost
model performance in a nearly parameter-free manner, since it shares weights
between the main segmentation branch and the introduced masked
self-distillation branches, and solely introduces negligible parameters for
coordinating the multimodal features. Comprehensive experiments on three
benchmark datasets (i.e. RefCOCO, RefCOCO+, G-Ref) for the RIS task
convincingly demonstrate the superiority of our proposed framework over
previous state-of-the-art methods.
- Abstract(参考訳): 参照画像セグメンテーション(RIS)は、所与の自然言語表現に基づいた画像から所望のオブジェクトをセグメントする基本的な視覚言語タスクである。
画像とテキストの間に本質的に異なるデータ特性があるため、既存の手法のほとんどは、細粒度の視覚言語アライメントに向けた複雑な設計を導入するか、あるいは高密度なアライメントが欠如しているため、スケーラビリティの問題や過度なセグメンテーションやアンダーセグメンテーションのようなミスセグメンテーションの問題を引き起こす。
risタスクで効果的かつ効率的な細粒化機能アライメントを実現するために, 自己蒸留を併用したマスク型マルチモーダルモデリングの可能性を検討し, cm-masksdと呼ばれる新しいクロスモダリティマスク型自己蒸留フレームワークを提案し, クリップモデルから画像テキスト意味アライメントの伝達知識を継承し, セグメント精度を向上させるためのパッチワード特徴アライメントを実現する。
さらに,本手法では,主セグメント分割枝と導入した自己蒸留枝との重みを共有でき,マルチモーダル特徴をコーディネートするための無視可能なパラメータのみを導入するため,モデル性能をほぼパラメータフリーで大幅に向上させることができる。
RISタスクに対する3つのベンチマークデータセット(RefCOCO、RefCOCO+、G-Ref)の総合的な実験により、提案したフレームワークが従来の最先端手法よりも優れていることを示す。
関連論文リスト
- Towards Fine-grained Interactive Segmentation in Images and Videos [21.22536962888316]
SAM2のバックボーン上に構築されたSAM2Refinerフレームワークを提案する。
このアーキテクチャによりSAM2は、画像とビデオの両方のきめ細かいセグメンテーションマスクを生成することができる。
さらに,マルチスケールのカスケード構造を用いてマスク特徴とエンコーダの階層的表現を融合させることによりマスクリファインメントモジュールを考案した。
論文 参考訳(メタデータ) (2025-02-12T06:38:18Z) - Freestyle Sketch-in-the-Loop Image Segmentation [116.1810651297801]
そこで我々は,視覚概念を部分的に,完全に,あるいはグループ化することで,視覚概念のセグメンテーションを可能にする,スケッチ・イン・ザ・ループ(sketch-in-the-loop)イメージセグメンテーションフレームワークを提案する。
このフレームワークは、スケッチベースの画像検索モデルと大規模事前学習モデルとの相乗効果を生かしている。
我々の目的による拡張戦略は、スケッチ誘導マスク生成の汎用性を高め、複数のレベルでセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - HoliSDiP: Image Super-Resolution via Holistic Semantics and Diffusion Prior [62.04939047885834]
本稿では,意味的セグメンテーションを活用するフレームワークであるHoliSDiPについて述べる。
本手法では, セグメンテーションマスクと空間CLIPマップを用いて, セグメンテーションガイダンスを導入しながら, セグメンテーションラベルを簡潔なテキストプロンプトとして利用する。
論文 参考訳(メタデータ) (2024-11-27T15:22:44Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [9.109484087832058]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。