論文の概要: Dual Convolutional LSTM Network for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2001.11561v1
- Date: Thu, 30 Jan 2020 20:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:30:17.583054
- Title: Dual Convolutional LSTM Network for Referring Image Segmentation
- Title(参考訳): 画像分割参照のためのデュアル畳み込みLSTMネットワーク
- Authors: Linwei Ye, Zhi Liu, Yang Wang
- Abstract要約: イメージセグメンテーションは、コンピュータビジョンと自然言語理解の共通点における問題である。
本稿では,この問題を解決するために,二重畳み込みLSTM(ConvLSTM)ネットワークを提案する。
- 参考スコア(独自算出の注目度): 18.181286443737417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider referring image segmentation. It is a problem at the intersection
of computer vision and natural language understanding. Given an input image and
a referring expression in the form of a natural language sentence, the goal is
to segment the object of interest in the image referred by the linguistic
query. To this end, we propose a dual convolutional LSTM (ConvLSTM) network to
tackle this problem. Our model consists of an encoder network and a decoder
network, where ConvLSTM is used in both encoder and decoder networks to capture
spatial and sequential information. The encoder network extracts visual and
linguistic features for each word in the expression sentence, and adopts an
attention mechanism to focus on words that are more informative in the
multimodal interaction. The decoder network integrates the features generated
by the encoder network at multiple levels as its input and produces the final
precise segmentation mask. Experimental results on four challenging datasets
demonstrate that the proposed network achieves superior segmentation
performance compared with other state-of-the-art methods.
- Abstract(参考訳): 画像分割について考察する。
これはコンピュータビジョンと自然言語理解の交点における問題である。
自然言語文の形で入力画像と参照表現が与えられた場合、目的は、言語クエリーによって参照される画像に対する関心の対象を分割することである。
そこで本研究では,この問題に対処する2つの畳み込みLSTM(ConvLSTM)ネットワークを提案する。
このモデルは、エンコーダネットワークとデコーダネットワークから成り、convlstmをエンコーダネットワークとデコーダネットワークの両方で使用し、空間的および逐次的な情報をキャプチャする。
エンコーダネットワークは、表現文中の各単語の視覚的および言語的特徴を抽出し、マルチモーダル相互作用においてより有意義な単語に焦点を当てる注意機構を採用する。
デコーダネットワークは、エンコーダネットワークが生成する機能を入力として複数のレベルで統合し、最終的な正確なセグメンテーションマスクを生成する。
4つの挑戦的データセットを用いた実験結果から,提案手法は他の最先端手法に比べて良好なセグメンテーション性能が得られた。
関連論文リスト
- Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Transformer Meets DCFAM: A Novel Semantic Segmentation Scheme for
Fine-Resolution Remote Sensing Images [6.171417925832851]
Swin Transformerをバックボーンとして導入し、コンテキスト情報を完全に抽出します。
また、高密度接続特徴集合モジュール(DCFAM)と呼ばれる新しいデコーダを設計し、解像度を復元し、セグメンテーションマップを生成する。
論文 参考訳(メタデータ) (2021-04-25T11:34:22Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。