論文の概要: ReSTR: Convolution-free Referring Image Segmentation Using Transformers
- arxiv url: http://arxiv.org/abs/2203.16768v1
- Date: Thu, 31 Mar 2022 02:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 06:48:10.881114
- Title: ReSTR: Convolution-free Referring Image Segmentation Using Transformers
- Title(参考訳): restr: トランスフォーマーを用いた畳み込みフリー参照画像セグメンテーション
- Authors: Namyup Kim, Dongwon Kim, Cuiling Lan, Wenjun Zeng, Suha Kwak
- Abstract要約: 本稿では,ReSTRと呼ばれる変換器を用いた画像セグメンテーションのための最初の畳み込みフリーモデルを提案する。
変換器エンコーダを通じて両方のモダリティの特徴を抽出するため、ReSTRは各モダリティ内のエンティティ間の長距離依存関係をキャプチャすることができる。
また、ReSTRは自己アテンションエンコーダによって2つのモードの特徴を融合させ、融合過程における2つのモード間のフレキシブルで適応的な相互作用を可能にする。
- 参考スコア(独自算出の注目度): 80.9672131755143
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Referring image segmentation is an advanced semantic segmentation task where
target is not a predefined class but is described in natural language. Most of
existing methods for this task rely heavily on convolutional neural networks,
which however have trouble capturing long-range dependencies between entities
in the language expression and are not flexible enough for modeling
interactions between the two different modalities. To address these issues, we
present the first convolution-free model for referring image segmentation using
transformers, dubbed ReSTR. Since it extracts features of both modalities
through transformer encoders, it can capture long-range dependencies between
entities within each modality. Also, ReSTR fuses features of the two modalities
by a self-attention encoder, which enables flexible and adaptive interactions
between the two modalities in the fusion process. The fused features are fed to
a segmentation module, which works adaptively according to the image and
language expression in hand. ReSTR is evaluated and compared with previous work
on all public benchmarks, where it outperforms all existing models.
- Abstract(参考訳): イメージセグメンテーションの参照は、ターゲットが事前に定義されたクラスではなく、自然言語で記述される高度なセグメンテーションタスクである。
このタスクの既存の手法の多くは畳み込みニューラルネットワークに大きく依存しているため、言語表現におけるエンティティ間の長距離依存関係の取得には困難であり、2つの異なるモード間の相互作用をモデル化するのに十分な柔軟性がない。
そこで本稿では,トランスフォーマーを用いた画像分割参照のための畳み込みフリーモデルとして,restrを提案する。
変換器エンコーダを通じて両方のモダリティの特徴を抽出するため、各モダリティ内のエンティティ間の長距離依存関係をキャプチャすることができる。
また、ReSTRは自己アテンションエンコーダによって2つのモードの特徴を融合させ、融合過程における2つのモード間の柔軟で適応的な相互作用を可能にする。
融合された機能はセグメンテーションモジュールに供給され、手元のイメージと言語表現に応じて適応的に動作する。
ReSTRは以前のすべての公開ベンチマークと比較され、既存のモデルよりも優れている。
関連論文リスト
- EAVL: Explicitly Align Vision and Language for Referring Image Segmentation [27.351940191216343]
入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
論文 参考訳(メタデータ) (2023-08-18T18:59:27Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-16T13:38:22Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Branchformer: Parallel MLP-Attention Architectures to Capture Local and
Global Context for Speech Recognition and Understanding [41.928263518867816]
コンフォーマーは多くの音声処理タスクに有効であることが証明されている。
そこで我々は,より柔軟で解釈可能でカスタマイズ可能なエンコーダであるブランチフォーマーを提案する。
論文 参考訳(メタデータ) (2022-07-06T21:08:10Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。