Fugu-MT 論文翻訳(概要): Locate then Segment: A Strong Pipeline for Referring Image Segmentation

論文の概要: Locate then Segment: A Strong Pipeline for Referring Image Segmentation

arxiv url: http://arxiv.org/abs/2103.16284v1
Date: Tue, 30 Mar 2021 12:25:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-31 21:08:49.477296
Title: Locate then Segment: A Strong Pipeline for Referring Image Segmentation
Title（参考訳）: Locate then Segment:イメージセグメントを参照するための強力なパイプライン
Authors: Ya Jing, Tao Kong, Wei Wang, Liang Wang, Lei Li, Tieniu Tan
Abstract要約: 参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。私たちのフレームワークはシンプルですが驚くほど効果的です。
参考スコア（独自算出の注目度）: 73.19139431806853
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Referring image segmentation aims to segment the objects referred by a natural language expression. Previous methods usually focus on designing an implicit and recurrent feature interaction mechanism to fuse the visual-linguistic features to directly generate the final segmentation mask without explicitly modeling the localization information of the referent instances. To tackle these problems, we view this task from another perspective by decoupling it into a "Locate-Then-Segment" (LTS) scheme. Given a language expression, people generally first perform attention to the corresponding target image regions, then generate a fine segmentation mask about the object based on its context. The LTS first extracts and fuses both visual and textual features to get a cross-modal representation, then applies a cross-model interaction on the visual-textual features to locate the referred object with position prior, and finally generates the segmentation result with a light-weight segmentation network. Our LTS is simple but surprisingly effective. On three popular benchmark datasets, the LTS outperforms all the previous state-of-the-art methods by a large margin (e.g., +3.2% on RefCOCO+ and +3.4% on RefCOCOg). In addition, our model is more interpretable with explicitly locating the object, which is also proved by visualization experiments. We believe this framework is promising to serve as a strong baseline for referring image segmentation.
Abstract（参考訳）: 参照画像分割は、自然言語表現で参照されるオブジェクトを分割することを目的としている。従来の手法では、視覚言語的特徴を融合させて最終セグメンテーションマスクを直接生成するために、参照インスタンスのローカライゼーション情報を明示的にモデル化することなく、暗黙的かつ反復的な特徴相互作用機構を設計することに注力する。これらの問題に対処するため、我々はこのタスクを別の視点から、"locate-then-segment" (lts) スキームに分離して見る。言語表現が与えられた場合、人々はまず対応する対象の画像領域に注意を向け、そのコンテキストに基づいてオブジェクトに関する細かいセグメンテーションマスクを生成する。 ltsはまず、視覚的特徴とテキスト的特徴の両方を抽出・融合し、クロスモーダル表現を取得し、その後、視覚-テクスト的特徴にクロスモデルインタラクションを適用して、参照された対象と位置を事前に特定し、最終的に軽量セグメンテーションネットワークでセグメンテーション結果を生成する。私たちのLTSはシンプルですが、驚くほど効果的です。 3つの一般的なベンチマークデータセットでは、LTSは従来の最先端のメソッド全てを大きなマージン(RefCOCO+では+3.2%、RefCOCOgでは+3.4%)で上回っている。さらに,本モデルでは,対象を明示的に位置決めすることで解釈可能であり,可視化実験によっても証明できる。このフレームワークは画像セグメンテーションの強力なベースラインとして機能することを約束しています。

関連論文リスト

CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,マルチイメージ部分レベルの推論セグメンテーションのためのLVLM(Large Vision-Language Model)を提案する。セマンティックな部分レベルの対応を識別する新しい対応抽出モジュールと、この情報をLVLMに埋め込む適応対応モジュールである。パラメータの0.3%しか微調整されていないCALICOは,この課題に対して高いパフォーマンスを実現していることを示す。
論文参考訳（メタデータ） (2024-12-26T18:59:37Z)
LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。 ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文参考訳（メタデータ） (2024-10-17T07:47:41Z)
LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。その結果,本手法が最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2024-08-06T14:50:48Z)
RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。 RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-07-25T17:58:03Z)
HARIS: Human-Like Attention for Reference Image Segmentation [5.808325471170541]
本稿では,Human-Like Attention機構を導入したHARISと呼ばれる参照画像分割手法を提案する。提案手法は,最先端性能とゼロショット能力に優れる。
論文参考訳（メタデータ） (2024-05-17T11:29:23Z)
Collaborative Position Reasoning Network for Referring Image Segmentation [30.414910144177757]
本稿では,エンティティローカライゼーションを明示的にモデル化する新しい手法を提案する。私たちの知る限りでは、位置推論モデリングに重点を置く最初の作品です。
論文参考訳（メタデータ） (2024-01-22T09:11:12Z)
EAVL: Explicitly Align Vision and Language for Referring Image Segmentation [27.351940191216343]
入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
論文参考訳（メタデータ） (2023-08-18T18:59:27Z)
Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。 1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文参考訳（メタデータ） (2022-12-27T09:13:19Z)
Fully and Weakly Supervised Referring Expression Segmentation with End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文参考訳（メタデータ） (2022-12-17T08:29:33Z)
Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文参考訳（メタデータ） (2022-06-13T17:59:43Z)
Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文参考訳（メタデータ） (2020-07-20T12:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。