論文の概要: Locate then Segment: A Strong Pipeline for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2103.16284v1
- Date: Tue, 30 Mar 2021 12:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 21:08:49.477296
- Title: Locate then Segment: A Strong Pipeline for Referring Image Segmentation
- Title(参考訳): Locate then Segment:イメージセグメントを参照するための強力なパイプライン
- Authors: Ya Jing, Tao Kong, Wei Wang, Liang Wang, Lei Li, Tieniu Tan
- Abstract要約: 参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
- 参考スコア(独自算出の注目度): 73.19139431806853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring image segmentation aims to segment the objects referred by a
natural language expression. Previous methods usually focus on designing an
implicit and recurrent feature interaction mechanism to fuse the
visual-linguistic features to directly generate the final segmentation mask
without explicitly modeling the localization information of the referent
instances. To tackle these problems, we view this task from another perspective
by decoupling it into a "Locate-Then-Segment" (LTS) scheme. Given a language
expression, people generally first perform attention to the corresponding
target image regions, then generate a fine segmentation mask about the object
based on its context. The LTS first extracts and fuses both visual and textual
features to get a cross-modal representation, then applies a cross-model
interaction on the visual-textual features to locate the referred object with
position prior, and finally generates the segmentation result with a
light-weight segmentation network. Our LTS is simple but surprisingly
effective. On three popular benchmark datasets, the LTS outperforms all the
previous state-of-the-art methods by a large margin (e.g., +3.2% on RefCOCO+
and +3.4% on RefCOCOg). In addition, our model is more interpretable with
explicitly locating the object, which is also proved by visualization
experiments. We believe this framework is promising to serve as a strong
baseline for referring image segmentation.
- Abstract(参考訳): 参照画像分割は、自然言語表現で参照されるオブジェクトを分割することを目的としている。
従来の手法では、視覚言語的特徴を融合させて最終セグメンテーションマスクを直接生成するために、参照インスタンスのローカライゼーション情報を明示的にモデル化することなく、暗黙的かつ反復的な特徴相互作用機構を設計することに注力する。
これらの問題に対処するため、我々はこのタスクを別の視点から、"locate-then-segment" (lts) スキームに分離して見る。
言語表現が与えられた場合、人々はまず対応する対象の画像領域に注意を向け、そのコンテキストに基づいてオブジェクトに関する細かいセグメンテーションマスクを生成する。
ltsはまず、視覚的特徴とテキスト的特徴の両方を抽出・融合し、クロスモーダル表現を取得し、その後、視覚-テクスト的特徴にクロスモデルインタラクションを適用して、参照された対象と位置を事前に特定し、最終的に軽量セグメンテーションネットワークでセグメンテーション結果を生成する。
私たちのLTSはシンプルですが、驚くほど効果的です。
3つの一般的なベンチマークデータセットでは、LTSは従来の最先端のメソッド全てを大きなマージン(RefCOCO+では+3.2%、RefCOCOgでは+3.4%)で上回っている。
さらに,本モデルでは,対象を明示的に位置決めすることで解釈可能であり,可視化実験によっても証明できる。
このフレームワークは画像セグメンテーションの強力なベースラインとして機能することを約束しています。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - HARIS: Human-Like Attention for Reference Image Segmentation [5.808325471170541]
本稿では,Human-Like Attention機構を導入したHARISと呼ばれる参照画像分割手法を提案する。
提案手法は,最先端性能とゼロショット能力に優れる。
論文 参考訳(メタデータ) (2024-05-17T11:29:23Z) - Collaborative Position Reasoning Network for Referring Image
Segmentation [30.414910144177757]
本稿では,エンティティローカライゼーションを明示的にモデル化する新しい手法を提案する。
私たちの知る限りでは、位置推論モデリングに重点を置く最初の作品です。
論文 参考訳(メタデータ) (2024-01-22T09:11:12Z) - EAVL: Explicitly Align Vision and Language for Referring Image Segmentation [27.351940191216343]
入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
論文 参考訳(メタデータ) (2023-08-18T18:59:27Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。