論文の概要: CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2212.01769v1
- Date: Sun, 4 Dec 2022 08:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:16:33.678771
- Title: CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation
- Title(参考訳): coupalign: 画像セグメンテーション参照のための単語-ピクセルと文-マスクアライメントの結合
- Authors: Zicheng Zhang, Yi Zhu, Jianzhuang Liu, Xiaodan Liang, Wei Ke
- Abstract要約: 画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。
単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
- 参考スコア(独自算出の注目度): 104.5033800500497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation aims at localizing all pixels of the visual
objects described by a natural language sentence. Previous works learn to
straightforwardly align the sentence embedding and pixel-level embedding for
highlighting the referred objects, but ignore the semantic consistency of
pixels within the same object, leading to incomplete masks and localization
errors in predictions. To tackle this problem, we propose CoupAlign, a simple
yet effective multi-level visual-semantic alignment method, to couple
sentence-mask alignment with word-pixel alignment to enforce object mask
constraint for achieving more accurate localization and segmentation.
Specifically, the Word-Pixel Alignment (WPA) module performs early fusion of
linguistic and pixel-level features in intermediate layers of the vision and
language encoders. Based on the word-pixel aligned embedding, a set of mask
proposals are generated to hypothesize possible objects. Then in the
Sentence-Mask Alignment (SMA) module, the masks are weighted by the sentence
embedding to localize the referred object, and finally projected back to
aggregate the pixels for the target. To further enhance the learning of the two
alignment modules, an auxiliary loss is designed to contrast the foreground and
background pixels. By hierarchically aligning pixels and masks with linguistic
features, our CoupAlign captures the pixel coherence at both visual and
semantic levels, thus generating more accurate predictions. Extensive
experiments on popular datasets (e.g., RefCOCO and G-Ref) show that our method
achieves consistent improvements over state-of-the-art methods, e.g., about 2%
oIoU increase on the validation and testing set of RefCOCO. Especially,
CoupAlign has remarkable ability in distinguishing the target from multiple
objects of the same class.
- Abstract(参考訳): 参照画像分割は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の研究は、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを直接調整することを学ぶが、同じオブジェクト内のピクセルのセマンティック一貫性を無視し、不完全なマスクと予測におけるローカライズエラーをもたらす。
この問題に対処するために,文マスクアライメントとワードピクセルアライメントを結合し,オブジェクトマスク制約を強制し,より正確なローカライゼーションとセグメンテーションを実現する,簡易かつ効果的なマルチレベルビジュアル・セマンティクスアライメント手法であるcoupalignを提案する。
特に、ワード・ピクセルアライメント(wpa)モジュールは、視覚および言語エンコーダの中間層において、言語およびピクセルレベルの特徴を早期に融合する。
ワードピクセル整列埋め込みに基づいて、可能なオブジェクトを仮説化するマスクの提案セットを生成する。
次に、文マスクアライメント(sma)モジュールにおいて、参照対象を局所化する文埋め込みによりマスクを重み付け、最終的に投影して対象の画素を集約する。
2つのアライメントモジュールの学習をさらに強化するために、前景と背景画素を対比するように補助的損失を設計する。
階層的にピクセルとマスクを言語的特徴に合わせることで、CoupAlignは視覚的および意味的なレベルでピクセルのコヒーレンスをキャプチャし、より正確な予測を生成する。
一般的なデータセット(RefCOCOやG-Refなど)に対する大規模な実験により,我々の手法は,RefCOCOの検証とテストセットにおける約2%のoIoUの増加など,最先端の手法よりも一貫した改善を実現していることが示された。
特にCoupAlignは、同じクラスの複数のオブジェクトとターゲットを区別する優れた能力を持っている。
関連論文リスト
- Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Unmasking Anomalies in Road-Scene Segmentation [18.253109627901566]
異常セグメンテーションはアプリケーションを駆動するための重要なタスクである。
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。
Mask2Anomalyはマスク分類アーキテクチャに異常検出手法を統合する可能性を示した。
論文 参考訳(メタデータ) (2023-07-25T08:23:10Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Image Inpainting with Edge-guided Learnable Bidirectional Attention Maps [85.67745220834718]
不規則な穴の画像インペインティングを改善するためのエッジガイド学習可能な双方向注意マップ(Edge-LBAM)を紹介します。
当社のEdge-LBAMメソッドには、予測エッジによる構造認識マスク更新を含むデュアルプロシージャが含まれています。
広範な実験により,エッジlbamはコヒーレントな画像構造を生成し,色差やぼやけを防止できることがわかった。
論文 参考訳(メタデータ) (2021-04-25T07:25:16Z) - Evidential fully convolutional network for semantic segmentation [6.230751621285322]
本稿では,完全畳み込みネットワーク(fcn)と,イメージセマンティクスセグメンテーションのためのデンプスターシェーファー層からなるハイブリッドアーキテクチャを提案する。
提案手法は,多クラス集合に混乱する画素を割り当てることで,意味セグメンテーションの精度とキャリブレーションを改善することを示す。
論文 参考訳(メタデータ) (2021-03-25T01:21:22Z) - Automatic Image Labelling at Pixel Level [21.59653873040243]
画素レベルの画像ラベリングを自動的に生成する興味深い学習手法を提案する。
The Guided Filter Network (GFN) was first developed to learn the segmentation knowledge from a source domain。
GFNはそのようなセグメンテーションの知識を変換し、ターゲットドメインで粗いオブジェクトマスクを生成する。
論文 参考訳(メタデータ) (2020-07-15T00:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。