論文の概要: ConvTransformer: A Convolutional Transformer Network for Video Frame
Synthesis
- arxiv url: http://arxiv.org/abs/2011.10185v2
- Date: Tue, 1 Jun 2021 09:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:58:58.504708
- Title: ConvTransformer: A Convolutional Transformer Network for Video Frame
Synthesis
- Title(参考訳): convtransformer:ビデオフレーム合成のための畳み込みトランスフォーマネットワーク
- Authors: Zhouyong Liu, Shun Luo, Wubin Li, Jingben Lu, Yufan Wu, Shilei Sun,
Chunguo Li, Luxi Yang
- Abstract要約: 本稿では,ビデオフレームシーケンス学習とビデオフレーム合成のための,畳み込みトランスフォーマ(convolutional Transformer)あるいはコンブトランスフォーマ(Conv Transformer)と呼ばれる,新しいエンドツーエンドアーキテクチャを提案する。
我々の知る限りでは、ConvTransformerアーキテクチャが提案され、ビデオフレーム合成に適用されたのはこれが初めてである。
- 参考スコア(独自算出の注目度): 12.806940225617138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Convolutional Neural Networks (CNNs) are powerful models that have
achieved excellent performance on difficult computer vision tasks. Although
CNNs perform well whenever large labeled training samples are available, they
work badly on video frame synthesis due to objects deforming and moving, scene
lighting changes, and cameras moving in video sequence. In this paper, we
present a novel and general end-to-end architecture, called convolutional
Transformer or ConvTransformer, for video frame sequence learning and video
frame synthesis. The core ingredient of ConvTransformer is the proposed
attention layer, i.e., multi-head convolutional self-attention layer, that
learns the sequential dependence of video sequence. ConvTransformer uses an
encoder, built upon multi-head convolutional self-attention layer, to encode
the sequential dependence between the input frames, and then a decoder decodes
the long-term dependence between the target synthesized frames and the input
frames. Experiments on video future frame extrapolation task show
ConvTransformer to be superior in quality while being more parallelizable to
recent approaches built upon convolutional LSTM (ConvLSTM). To the best of our
knowledge, this is the first time that ConvTransformer architecture is proposed
and applied to video frame synthesis.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks, CNN)は、難しいコンピュータビジョンタスクにおいて優れたパフォーマンスを達成する強力なモデルである。
CNNは、大きなラベル付きトレーニングサンプルが利用可能であればいつでもうまく機能するが、オブジェクトの変形や移動、シーンの照明変更、ビデオシーケンスで動くカメラなどにより、ビデオフレームの合成に悪影響を及ぼす。
本稿では、ビデオフレームシーケンス学習とビデオフレーム合成のための、畳み込み変換器(Conv Transformer)と呼ばれる、新規で汎用的なエンドツーエンドアーキテクチャを提案する。
convtransformerの中核となる要素は、ビデオシーケンスの逐次依存性を学習するマルチヘッド畳み込み層(multi-head convolutional self-attention layer)である。
ConvTransformerは、マルチヘッドの畳み込み自己保持層上に構築されたエンコーダを使用して、入力フレーム間のシーケンシャルな依存を符号化し、デコーダはターゲットの合成フレームと入力フレーム間の長期的依存を復号する。
ビデオフレーム外挿タスクの実験では、ConvTransformerは高品質でありながら、畳み込みLSTM(ConvLSTM)上に構築された最近のアプローチよりも並列化可能である。
我々の知る限りでは、ConvTransformerアーキテクチャが提案され、ビデオフレーム合成に適用されたのはこれが初めてである。
関連論文リスト
- ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - VMFormer: End-to-End Video Matting with Transformer [48.97730965527976]
ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。
ビデオマッチングの最近のソリューションは、ディープ畳み込みニューラルネットワーク(CNN)によって支配されている。
ビデオ・マッティングのためのトランスフォーマー・ベース・エンド・ツー・エンド方式であるVMFormerを提案する。
論文 参考訳(メタデータ) (2022-08-26T17:51:02Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Generative Video Transformer: Can Objects be the Words? [22.788711301106765]
本稿では,オブジェクト中心のアプローチを用いてシーンを生成ビデオトランスに適したトークンに分解するオブジェクト中心ビデオトランス (OCVT) を提案する。
映像をオブジェクトに分解することで、完全に教師されていないモデルでは、シーン内の複数のオブジェクトの複雑な時間的ダイナミクスを学習し、ビデオの将来のフレームを生成することができる。
私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-20T03:08:39Z) - W-Cell-Net: Multi-frame Interpolation of Cellular Microscopy Videos [1.7205106391379026]
蛍光顕微鏡タイムラプス映画の時間分解能を高めるため,近年のディープ・ビデオ・コンボリューションを応用した。
我々の知る限り、2つの連続した顕微鏡画像間のフレームを生成するために、CNN(Conal Neural Networks)を用いた以前の研究はない。
論文 参考訳(メタデータ) (2020-05-14T01:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。