論文の概要: Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network
- arxiv url: http://arxiv.org/abs/2102.04762v1
- Date: Tue, 9 Feb 2021 11:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 21:14:46.108535
- Title: Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network
- Title(参考訳): クロスモーダル自己認識ネットワークを用いた画像・動画のセグメンテーションの参照
- Authors: Linwei Ye, Mrigank Rochan, Zhi Liu, Xiaoqin Zhang and Yang Wang
- Abstract要約: クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
- 参考スコア(独自算出の注目度): 27.792054915363106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of referring segmentation in images and videos with
natural language. Given an input image (or video) and a referring expression,
the goal is to segment the entity referred by the expression in the image or
video. In this paper, we propose a cross-modal self-attention (CMSA) module to
utilize fine details of individual words and the input image or video, which
effectively captures the long-range dependencies between linguistic and visual
features. Our model can adaptively focus on informative words in the referring
expression and important regions in the visual input. We further propose a
gated multi-level fusion (GMLF) module to selectively integrate self-attentive
cross-modal features corresponding to different levels of visual features. This
module controls the feature fusion of information flow of features at different
levels with high-level and low-level semantic information related to different
attentive words. Besides, we introduce cross-frame self-attention (CFSA) module
to effectively integrate temporal information in consecutive frames which
extends our method in the case of referring segmentation in videos. Experiments
on benchmark datasets of four referring image datasets and two actor and action
video segmentation datasets consistently demonstrate that our proposed approach
outperforms existing state-of-the-art methods.
- Abstract(参考訳): 自然言語で画像や動画のセグメンテーションを参照することの問題点を考察する。
入力画像(またはビデオ)と参照表現が与えられると、画像またはビデオで表現によって参照されるエンティティを分割することが目標となる。
本論文では,言語的特徴と視覚的特徴の長期的依存性を効果的に捉える,個々の単語と入力画像やビデオの細かいディテールを利用するクロスモーダルセルフアテンション(CMSA)モジュールを提案する。
本モデルは,参照表現における情報的単語と視覚入力における重要領域に適応的に焦点をあてることができる。
さらに,様々な視覚特徴に対応する自己注意型クロスモーダル特徴を選択的に統合するゲート型マルチレベル融合(gmlf)モジュールを提案する。
このモジュールは、異なる注意深い単語に関連する高レベルおよび低レベルの意味情報と、異なるレベルの機能の情報フローの機能融合を制御します。
さらに,ビデオ中のセグメンテーションを参照する場合のメソッドを拡張する連続フレームにおいて,時間情報を効果的に統合するためのクロスフレーム自己アテンション(CFSA)モジュールも導入する。
4つの参照画像データセットと2つのアクターとアクションビデオセグメンテーションデータセットのベンチマークデータセットの実験は、提案手法が既存の最先端手法よりも優れていることを一貫して示している。
関連論文リスト
- CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - Cross-Modal Progressive Comprehension for Referring Segmentation [89.58118962086851]
人間の行動を効果的に模倣するクロスモーダルプログレッシブ(CMPC)スキーム。
画像データの場合、CMPC-Iモジュールはまずエンティティと属性の単語を使用して、式によって考慮される可能性のあるすべての関連エンティティを知覚します。
ビデオデータの場合、CMPC-VモジュールはCMPC-Iに基づくアクションワードをさらに活用し、時間グラフ推論によるアクションキューと一致する正しいエンティティを強調します。
論文 参考訳(メタデータ) (2021-05-15T08:55:51Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。