論文の概要: The Invertible U-Net for Optical-Flow-free Video Interframe Generation
- arxiv url: http://arxiv.org/abs/2103.09576v1
- Date: Wed, 17 Mar 2021 11:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 13:01:38.097644
- Title: The Invertible U-Net for Optical-Flow-free Video Interframe Generation
- Title(参考訳): 光フローフリービデオフレーム生成のための可逆U-Net
- Authors: Saem Park, Donghun Han and Nojun Kwak
- Abstract要約: 本稿では,問題のある光流を使わずに映像フレーム間生成問題に取り組む。
フレーム間の意味的時間的整合性を維持するために,潜在空間に新たな整合性損失を持つ学習手法を提案する。
生成した画像の解像度は、可逆ネットワークを用いて元の画像と同一であることが保証される。
- 参考スコア(独自算出の注目度): 31.100044730381047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video frame interpolation is the task of creating an interface between two
adjacent frames along the time axis. So, instead of simply averaging two
adjacent frames to create an intermediate image, this operation should maintain
semantic continuity with the adjacent frames. Most conventional methods use
optical flow, and various tools such as occlusion handling and object smoothing
are indispensable. Since the use of these various tools leads to complex
problems, we tried to tackle the video interframe generation problem without
using problematic optical flow. To enable this, we have tried to use a deep
neural network with an invertible structure and developed an invertible U-Net
which is a modified normalizing flow. In addition, we propose a learning method
with a new consistency loss in the latent space to maintain semantic temporal
consistency between frames. The resolution of the generated image is guaranteed
to be identical to that of the original images by using an invertible network.
Furthermore, as it is not a random image like the ones by generative models,
our network guarantees stable outputs without flicker. Through experiments, we
confirmed the feasibility of the proposed algorithm and would like to suggest
invertible U-Net as a new possibility for baseline in video frame
interpolation. This paper is meaningful in that it is the worlds first attempt
to use invertible networks instead of optical flows for video interpolation.
- Abstract(参考訳): ビデオフレーム補間は、時間軸に沿って隣接する2つのフレーム間のインターフェースを作成するタスクである。
したがって、2つの隣接するフレームを平均化して中間画像を生成するのではなく、隣接するフレームとのセマンティックな連続性を維持する必要がある。
従来の手法ではオプティカルフローを用いており、閉塞処理やオブジェクト平滑化といった様々なツールが不可欠である。
これらの様々なツールを使用することで複雑な問題が発生するため、問題のある光学フローを使わずに映像フレーム間生成問題に取り組もうとした。
これを実現するために,可逆構造を持つディープニューラルネットワークを使用し,修正正規化フローである可逆u-netを開発した。
さらに,フレーム間の意味的時間的一貫性を維持するために,潜在空間に新たな一貫性損失を持つ学習手法を提案する。
生成した画像の解像度は、可逆ネットワークを用いて元の画像と同一であることが保証される。
さらに、生成モデルによるようなランダムな画像ではないため、ネットワークはフリックなしで安定した出力を保証する。
実験により,提案アルゴリズムの有効性を確認し,ビデオフレーム補間におけるベースラインの新たな可能性として,可逆U-Netを提案する。
本論文は,ビデオ補間のための光フローではなく,可逆ネットワークを用いた世界初の試みである。
関連論文リスト
- Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring [76.54162653678871]
本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Frame Interpolation for Dynamic Scenes with Implicit Flow Encoding [10.445563506186307]
本稿では,動的シーンの2対のイメージ間を補間するアルゴリズムを提案する。
我々は、照明の変動に対して非常に頑健な既存の光学フロー手法を利用する。
我々の手法は、最先端のフレームブレンディングアルゴリズムよりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2022-09-27T10:00:05Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Cross-Attention Transformer for Video Interpolation [3.5317804902980527]
TAIN (Transformers and Attention for video Interpolation) は、2つの連続した画像フレームが配置された中間フレームを補間することを目的としている。
最初に、予測フレームと類似した外観の入力画像特徴をグローバルに集約するために、CS(Cross-Similarity)と呼ばれる新しいビジュアルトランスフォーマーモジュールを提示する。
CS特徴の排他性を考慮し,一方のフレームから他方のフレーム上のCS特徴に焦点を合わせるためのイメージアテンション(IA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-08T21:38:54Z) - Restoration of Video Frames from a Single Blurred Image with Motion
Understanding [69.90724075337194]
単一モーション赤画像からクリーンな映像フレームを生成するための新しいフレームワークを提案する。
一つのぼやけた画像からの映像復元を逆問題として、クリーンな画像シーケンスとそれぞれの動きを潜伏要因として設定する。
提案手法は,空間トランスフォーマネットワークモジュールを用いたanblur-decoder構造に基づいている。
論文 参考訳(メタデータ) (2021-04-19T08:32:57Z) - W-Cell-Net: Multi-frame Interpolation of Cellular Microscopy Videos [1.7205106391379026]
蛍光顕微鏡タイムラプス映画の時間分解能を高めるため,近年のディープ・ビデオ・コンボリューションを応用した。
我々の知る限り、2つの連続した顕微鏡画像間のフレームを生成するために、CNN(Conal Neural Networks)を用いた以前の研究はない。
論文 参考訳(メタデータ) (2020-05-14T01:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。