論文の概要: CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2212.01769v1
- Date: Sun, 4 Dec 2022 08:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:16:33.678771
- Title: CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation
- Title(参考訳): coupalign: 画像セグメンテーション参照のための単語-ピクセルと文-マスクアライメントの結合
- Authors: Zicheng Zhang, Yi Zhu, Jianzhuang Liu, Xiaodan Liang, Wei Ke
- Abstract要約: 画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。
単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
- 参考スコア(独自算出の注目度): 104.5033800500497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation aims at localizing all pixels of the visual
objects described by a natural language sentence. Previous works learn to
straightforwardly align the sentence embedding and pixel-level embedding for
highlighting the referred objects, but ignore the semantic consistency of
pixels within the same object, leading to incomplete masks and localization
errors in predictions. To tackle this problem, we propose CoupAlign, a simple
yet effective multi-level visual-semantic alignment method, to couple
sentence-mask alignment with word-pixel alignment to enforce object mask
constraint for achieving more accurate localization and segmentation.
Specifically, the Word-Pixel Alignment (WPA) module performs early fusion of
linguistic and pixel-level features in intermediate layers of the vision and
language encoders. Based on the word-pixel aligned embedding, a set of mask
proposals are generated to hypothesize possible objects. Then in the
Sentence-Mask Alignment (SMA) module, the masks are weighted by the sentence
embedding to localize the referred object, and finally projected back to
aggregate the pixels for the target. To further enhance the learning of the two
alignment modules, an auxiliary loss is designed to contrast the foreground and
background pixels. By hierarchically aligning pixels and masks with linguistic
features, our CoupAlign captures the pixel coherence at both visual and
semantic levels, thus generating more accurate predictions. Extensive
experiments on popular datasets (e.g., RefCOCO and G-Ref) show that our method
achieves consistent improvements over state-of-the-art methods, e.g., about 2%
oIoU increase on the validation and testing set of RefCOCO. Especially,
CoupAlign has remarkable ability in distinguishing the target from multiple
objects of the same class.
- Abstract(参考訳): 参照画像分割は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の研究は、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを直接調整することを学ぶが、同じオブジェクト内のピクセルのセマンティック一貫性を無視し、不完全なマスクと予測におけるローカライズエラーをもたらす。
この問題に対処するために,文マスクアライメントとワードピクセルアライメントを結合し,オブジェクトマスク制約を強制し,より正確なローカライゼーションとセグメンテーションを実現する,簡易かつ効果的なマルチレベルビジュアル・セマンティクスアライメント手法であるcoupalignを提案する。
特に、ワード・ピクセルアライメント(wpa)モジュールは、視覚および言語エンコーダの中間層において、言語およびピクセルレベルの特徴を早期に融合する。
ワードピクセル整列埋め込みに基づいて、可能なオブジェクトを仮説化するマスクの提案セットを生成する。
次に、文マスクアライメント(sma)モジュールにおいて、参照対象を局所化する文埋め込みによりマスクを重み付け、最終的に投影して対象の画素を集約する。
2つのアライメントモジュールの学習をさらに強化するために、前景と背景画素を対比するように補助的損失を設計する。
階層的にピクセルとマスクを言語的特徴に合わせることで、CoupAlignは視覚的および意味的なレベルでピクセルのコヒーレンスをキャプチャし、より正確な予測を生成する。
一般的なデータセット(RefCOCOやG-Refなど)に対する大規模な実験により,我々の手法は,RefCOCOの検証とテストセットにおける約2%のoIoUの増加など,最先端の手法よりも一貫した改善を実現していることが示された。
特にCoupAlignは、同じクラスの複数のオブジェクトとターゲットを区別する優れた能力を持っている。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment [53.235290505274676]
CLIPのような大規模視覚言語モデルはセマンティックセグメンテーションのパフォーマンスを向上させることができる。
マスクレベルの視覚言語アライメントを利用した新しいフレームワークであるMTA-CLIPを紹介する。
MTA-CLIPは最先端を達成し、ベンチマークデータセットで平均2.8%と1.3%の先行研究を上回っている。
論文 参考訳(メタデータ) (2024-07-31T14:56:42Z) - LAIP: Learning Local Alignment from Image-Phrase Modeling for Text-based Person Search [16.7500024682162]
本稿では、双方向アテンション重み付き局所アライメント(BidirAtt)とマスクフレーズモデリング(MPM)モジュールを備えたLAIP(Local Alignment from Image-Phrase Modeling)フレームワークを提案する。
CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットで実施された実験は、既存の手法よりもLAIPフレームワークの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-06-16T08:37:24Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Unmasking Anomalies in Road-Scene Segmentation [18.253109627901566]
異常セグメンテーションはアプリケーションを駆動するための重要なタスクである。
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。
Mask2Anomalyはマスク分類アーキテクチャに異常検出手法を統合する可能性を示した。
論文 参考訳(メタデータ) (2023-07-25T08:23:10Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Evidential fully convolutional network for semantic segmentation [6.230751621285322]
本稿では,完全畳み込みネットワーク(fcn)と,イメージセマンティクスセグメンテーションのためのデンプスターシェーファー層からなるハイブリッドアーキテクチャを提案する。
提案手法は,多クラス集合に混乱する画素を割り当てることで,意味セグメンテーションの精度とキャリブレーションを改善することを示す。
論文 参考訳(メタデータ) (2021-03-25T01:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。