論文の概要: Siamese Network with Interactive Transformer for Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2112.13983v1
- Date: Tue, 28 Dec 2021 03:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 15:28:14.956773
- Title: Siamese Network with Interactive Transformer for Video Object
Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのためのインタラクティブトランスを用いたシームズネットワーク
- Authors: Meng Lan, Jing Zhang, Fengxiang He, Lefei Zhang
- Abstract要約: 本稿では,SITVOSと呼ばれる対話型トランスフォーマーを設計したネットワークを提案し,過去のフレームから現在のフレームへの効果的なコンテキスト伝搬を実現する。
過去のフレームと現在のフレームの両方のバックボーン機能を抽出するためにバックボーンアーキテクチャを使用します。
- 参考スコア(独自算出の注目度): 34.202137199782804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised video object segmentation (VOS) refers to segmenting the
target object in remaining frames given its annotation in the first frame,
which has been actively studied in recent years. The key challenge lies in
finding effective ways to exploit the spatio-temporal context of past frames to
help learn discriminative target representation of current frame. In this
paper, we propose a novel Siamese network with a specifically designed
interactive transformer, called SITVOS, to enable effective context propagation
from historical to current frames. Technically, we use the transformer encoder
and decoder to handle the past frames and current frame separately, i.e., the
encoder encodes robust spatio-temporal context of target object from the past
frames, while the decoder takes the feature embedding of current frame as the
query to retrieve the target from the encoder output. To further enhance the
target representation, a feature interaction module (FIM) is devised to promote
the information flow between the encoder and decoder. Moreover, we employ the
Siamese architecture to extract backbone features of both past and current
frames, which enables feature reuse and is more efficient than existing
methods. Experimental results on three challenging benchmarks validate the
superiority of SITVOS over state-of-the-art methods.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーション(英: Semi-supervised video object segmentation, VOS)は、最近研究されている第1フレームにアノテーションを付加した残フレームにおける対象オブジェクトのセグメンテーションを指す。
鍵となる課題は、過去のフレームの時空間的文脈を利用して、現在のフレームの識別的ターゲット表現を学習する効果的な方法を見つけることである。
本稿では,SITVOSと呼ばれる対話型トランスフォーマーを設計し,歴史的フレームから現在のフレームへの効果的なコンテキスト伝搬を実現する新しいSiameseネットワークを提案する。
技術的には、トランスフォーマーエンコーダとデコーダを使用して、過去のフレームと現在のフレームを別々に扱う。すなわち、エンコーダは、過去のフレームからターゲットオブジェクトの堅牢な時空間コンテキストを符号化し、デコーダは、現在のフレームの特徴埋め込みをクエリとして取り込んで、エンコーダ出力からターゲットを検索する。
ターゲット表現をさらに強化するため、エンコーダとデコーダ間の情報フローを促進するために、機能相互作用モジュール(FIM)が考案された。
さらに,過去のフレームと現在のフレームの両方のバックボーン特徴を抽出するために,siameseアーキテクチャを採用し,機能再利用を可能にし,既存の手法よりも効率的である。
SITVOSが最先端手法よりも優れていることを示す3つの挑戦的ベンチマーク実験結果を得た。
関連論文リスト
- Concatenated Masked Autoencoders as Spatial-Temporal Learner [6.475592804311682]
自己教師型ビデオ表現学習のための時空間学習システムとして,Concatenated Masked Autoencoders (CatMAE)を導入した。
そこで本研究では,ビデオフレームをモデル再構成ターゲットとして用いた新しいデータ拡張戦略であるVideo-Reverse(ViRe)を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:08:26Z) - Redundancy-aware Transformer for Video Question Answering [71.98116071679065]
本稿では,ビデオQAを冗長性に認識してモデル化することを目的とした,トランスフォーマーに基づく新しいアーキテクチャを提案する。
隣接するフレームの冗長性に対処するために,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入する。
クロスモーダルな冗長性については、新たな適応サンプリングを融合モジュールに装備し、視覚と言語間の相互作用を明確に区別する。
論文 参考訳(メタデータ) (2023-08-07T03:16:24Z) - Online Video Instance Segmentation via Robust Context Fusion [36.376900904288966]
ビデオインスタンスセグメンテーション(VIS)は、ビデオシーケンス内のオブジェクトインスタンスを分類、セグメンテーション、追跡することを目的としている。
最近のトランスフォーマーベースのニューラルネットワークは、VISタスクのモデリングの強力な能力を実証している。
そこで本稿では,VISをオンライン方式で扱うための堅牢なコンテキスト融合ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T15:04:50Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation [90.74732705236336]
言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。
本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
論文 参考訳(メタデータ) (2021-05-14T13:27:53Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。