論文の概要: Locate then Segment: A Strong Pipeline for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2103.16284v1
- Date: Tue, 30 Mar 2021 12:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 21:08:49.477296
- Title: Locate then Segment: A Strong Pipeline for Referring Image Segmentation
- Title(参考訳): Locate then Segment:イメージセグメントを参照するための強力なパイプライン
- Authors: Ya Jing, Tao Kong, Wei Wang, Liang Wang, Lei Li, Tieniu Tan
- Abstract要約: 参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
- 参考スコア(独自算出の注目度): 73.19139431806853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring image segmentation aims to segment the objects referred by a
natural language expression. Previous methods usually focus on designing an
implicit and recurrent feature interaction mechanism to fuse the
visual-linguistic features to directly generate the final segmentation mask
without explicitly modeling the localization information of the referent
instances. To tackle these problems, we view this task from another perspective
by decoupling it into a "Locate-Then-Segment" (LTS) scheme. Given a language
expression, people generally first perform attention to the corresponding
target image regions, then generate a fine segmentation mask about the object
based on its context. The LTS first extracts and fuses both visual and textual
features to get a cross-modal representation, then applies a cross-model
interaction on the visual-textual features to locate the referred object with
position prior, and finally generates the segmentation result with a
light-weight segmentation network. Our LTS is simple but surprisingly
effective. On three popular benchmark datasets, the LTS outperforms all the
previous state-of-the-art methods by a large margin (e.g., +3.2% on RefCOCO+
and +3.4% on RefCOCOg). In addition, our model is more interpretable with
explicitly locating the object, which is also proved by visualization
experiments. We believe this framework is promising to serve as a strong
baseline for referring image segmentation.
- Abstract(参考訳): 参照画像分割は、自然言語表現で参照されるオブジェクトを分割することを目的としている。
従来の手法では、視覚言語的特徴を融合させて最終セグメンテーションマスクを直接生成するために、参照インスタンスのローカライゼーション情報を明示的にモデル化することなく、暗黙的かつ反復的な特徴相互作用機構を設計することに注力する。
これらの問題に対処するため、我々はこのタスクを別の視点から、"locate-then-segment" (lts) スキームに分離して見る。
言語表現が与えられた場合、人々はまず対応する対象の画像領域に注意を向け、そのコンテキストに基づいてオブジェクトに関する細かいセグメンテーションマスクを生成する。
ltsはまず、視覚的特徴とテキスト的特徴の両方を抽出・融合し、クロスモーダル表現を取得し、その後、視覚-テクスト的特徴にクロスモデルインタラクションを適用して、参照された対象と位置を事前に特定し、最終的に軽量セグメンテーションネットワークでセグメンテーション結果を生成する。
私たちのLTSはシンプルですが、驚くほど効果的です。
3つの一般的なベンチマークデータセットでは、LTSは従来の最先端のメソッド全てを大きなマージン(RefCOCO+では+3.2%、RefCOCOgでは+3.4%)で上回っている。
さらに,本モデルでは,対象を明示的に位置決めすることで解釈可能であり,可視化実験によっても証明できる。
このフレームワークは画像セグメンテーションの強力なベースラインとして機能することを約束しています。
関連論文リスト
- Collaborative Position Reasoning Network for Referring Image
Segmentation [30.414910144177757]
本稿では,エンティティローカライゼーションを明示的にモデル化する新しい手法を提案する。
私たちの知る限りでは、位置推論モデリングに重点を置く最初の作品です。
論文 参考訳(メタデータ) (2024-01-22T09:11:12Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。