Fugu-MT 論文翻訳(概要): CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation

論文の概要: CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation

arxiv url: http://arxiv.org/abs/2212.01769v1
Date: Sun, 4 Dec 2022 08:53:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 17:16:33.678771
Title: CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation
Title（参考訳）: coupalign: 画像セグメンテーション参照のための単語-ピクセルと文-マスクアライメントの結合
Authors: Zicheng Zhang, Yi Zhu, Jianzhuang Liu, Xiaodan Liang, Wei Ke
Abstract要約: 画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
参考スコア（独自算出の注目度）: 104.5033800500497
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Referring image segmentation aims at localizing all pixels of the visual objects described by a natural language sentence. Previous works learn to straightforwardly align the sentence embedding and pixel-level embedding for highlighting the referred objects, but ignore the semantic consistency of pixels within the same object, leading to incomplete masks and localization errors in predictions. To tackle this problem, we propose CoupAlign, a simple yet effective multi-level visual-semantic alignment method, to couple sentence-mask alignment with word-pixel alignment to enforce object mask constraint for achieving more accurate localization and segmentation. Specifically, the Word-Pixel Alignment (WPA) module performs early fusion of linguistic and pixel-level features in intermediate layers of the vision and language encoders. Based on the word-pixel aligned embedding, a set of mask proposals are generated to hypothesize possible objects. Then in the Sentence-Mask Alignment (SMA) module, the masks are weighted by the sentence embedding to localize the referred object, and finally projected back to aggregate the pixels for the target. To further enhance the learning of the two alignment modules, an auxiliary loss is designed to contrast the foreground and background pixels. By hierarchically aligning pixels and masks with linguistic features, our CoupAlign captures the pixel coherence at both visual and semantic levels, thus generating more accurate predictions. Extensive experiments on popular datasets (e.g., RefCOCO and G-Ref) show that our method achieves consistent improvements over state-of-the-art methods, e.g., about 2% oIoU increase on the validation and testing set of RefCOCO. Especially, CoupAlign has remarkable ability in distinguishing the target from multiple objects of the same class.
Abstract（参考訳）: 参照画像分割は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。以前の研究は、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを直接調整することを学ぶが、同じオブジェクト内のピクセルのセマンティック一貫性を無視し、不完全なマスクと予測におけるローカライズエラーをもたらす。この問題に対処するために,文マスクアライメントとワードピクセルアライメントを結合し,オブジェクトマスク制約を強制し,より正確なローカライゼーションとセグメンテーションを実現する,簡易かつ効果的なマルチレベルビジュアル・セマンティクスアライメント手法であるcoupalignを提案する。特に、ワード・ピクセルアライメント(wpa)モジュールは、視覚および言語エンコーダの中間層において、言語およびピクセルレベルの特徴を早期に融合する。ワードピクセル整列埋め込みに基づいて、可能なオブジェクトを仮説化するマスクの提案セットを生成する。次に、文マスクアライメント(sma)モジュールにおいて、参照対象を局所化する文埋め込みによりマスクを重み付け、最終的に投影して対象の画素を集約する。 2つのアライメントモジュールの学習をさらに強化するために、前景と背景画素を対比するように補助的損失を設計する。階層的にピクセルとマスクを言語的特徴に合わせることで、CoupAlignは視覚的および意味的なレベルでピクセルのコヒーレンスをキャプチャし、より正確な予測を生成する。一般的なデータセット(RefCOCOやG-Refなど)に対する大規模な実験により,我々の手法は,RefCOCOの検証とテストセットにおける約2%のoIoUの増加など,最先端の手法よりも一貫した改善を実現していることが示された。特にCoupAlignは、同じクラスの複数のオブジェクトとターゲットを区別する優れた能力を持っている。

関連論文リスト

FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文参考訳（メタデータ） (2025-01-01T15:47:04Z)
High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文参考訳（メタデータ） (2024-12-16T05:44:45Z)
Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。 PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文参考訳（メタデータ） (2024-09-30T01:13:03Z)
MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment [53.235290505274676]
CLIPのような大規模視覚言語モデルはセマンティックセグメンテーションのパフォーマンスを向上させることができる。マスクレベルの視覚言語アライメントを利用した新しいフレームワークであるMTA-CLIPを紹介する。 MTA-CLIPは最先端を達成し、ベンチマークデータセットで平均2.8%と1.3%の先行研究を上回っている。
論文参考訳（メタデータ） (2024-07-31T14:56:42Z)
LAIP: Learning Local Alignment from Image-Phrase Modeling for Text-based Person Search [16.7500024682162]
本稿では、双方向アテンション重み付き局所アライメント(BidirAtt)とマスクフレーズモデリング(MPM)モジュールを備えたLAIP(Local Alignment from Image-Phrase Modeling)フレームワークを提案する。 CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットで実施された実験は、既存の手法よりもLAIPフレームワークの方が優れていることを示している。
論文参考訳（メタデータ） (2024-06-16T08:37:24Z)
Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文参考訳（メタデータ） (2024-02-22T06:47:44Z)
Variance-insensitive and Target-preserving Mask Refinement for Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。 GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文参考訳（メタデータ） (2023-12-22T02:31:31Z)
LightCLIP: Learning Multi-Level Interaction for Lightweight Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文参考訳（メタデータ） (2023-12-01T15:54:55Z)
Unmasking Anomalies in Road-Scene Segmentation [18.253109627901566]
異常セグメンテーションはアプリケーションを駆動するための重要なタスクである。本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。 Mask2Anomalyはマスク分類アーキテクチャに異常検出手法を統合する可能性を示した。
論文参考訳（メタデータ） (2023-07-25T08:23:10Z)
Unified Mask Embedding and Correspondence Learning for Self-Supervised Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文参考訳（メタデータ） (2023-03-17T16:23:36Z)
Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文参考訳（メタデータ） (2022-06-13T17:59:43Z)
Evidential fully convolutional network for semantic segmentation [6.230751621285322]
本稿では,完全畳み込みネットワーク(fcn)と,イメージセマンティクスセグメンテーションのためのデンプスターシェーファー層からなるハイブリッドアーキテクチャを提案する。提案手法は,多クラス集合に混乱する画素を割り当てることで,意味セグメンテーションの精度とキャリブレーションを改善することを示す。
論文参考訳（メタデータ） (2021-03-25T01:21:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。