論文の概要: The Invertible U-Net for Optical-Flow-free Video Interframe Generation
- arxiv url: http://arxiv.org/abs/2103.09576v1
- Date: Wed, 17 Mar 2021 11:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 13:01:38.097644
- Title: The Invertible U-Net for Optical-Flow-free Video Interframe Generation
- Title(参考訳): 光フローフリービデオフレーム生成のための可逆U-Net
- Authors: Saem Park, Donghun Han and Nojun Kwak
- Abstract要約: 本稿では,問題のある光流を使わずに映像フレーム間生成問題に取り組む。
フレーム間の意味的時間的整合性を維持するために,潜在空間に新たな整合性損失を持つ学習手法を提案する。
生成した画像の解像度は、可逆ネットワークを用いて元の画像と同一であることが保証される。
- 参考スコア(独自算出の注目度): 31.100044730381047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video frame interpolation is the task of creating an interface between two
adjacent frames along the time axis. So, instead of simply averaging two
adjacent frames to create an intermediate image, this operation should maintain
semantic continuity with the adjacent frames. Most conventional methods use
optical flow, and various tools such as occlusion handling and object smoothing
are indispensable. Since the use of these various tools leads to complex
problems, we tried to tackle the video interframe generation problem without
using problematic optical flow. To enable this, we have tried to use a deep
neural network with an invertible structure and developed an invertible U-Net
which is a modified normalizing flow. In addition, we propose a learning method
with a new consistency loss in the latent space to maintain semantic temporal
consistency between frames. The resolution of the generated image is guaranteed
to be identical to that of the original images by using an invertible network.
Furthermore, as it is not a random image like the ones by generative models,
our network guarantees stable outputs without flicker. Through experiments, we
confirmed the feasibility of the proposed algorithm and would like to suggest
invertible U-Net as a new possibility for baseline in video frame
interpolation. This paper is meaningful in that it is the worlds first attempt
to use invertible networks instead of optical flows for video interpolation.
- Abstract(参考訳): ビデオフレーム補間は、時間軸に沿って隣接する2つのフレーム間のインターフェースを作成するタスクである。
したがって、2つの隣接するフレームを平均化して中間画像を生成するのではなく、隣接するフレームとのセマンティックな連続性を維持する必要がある。
従来の手法ではオプティカルフローを用いており、閉塞処理やオブジェクト平滑化といった様々なツールが不可欠である。
これらの様々なツールを使用することで複雑な問題が発生するため、問題のある光学フローを使わずに映像フレーム間生成問題に取り組もうとした。
これを実現するために,可逆構造を持つディープニューラルネットワークを使用し,修正正規化フローである可逆u-netを開発した。
さらに,フレーム間の意味的時間的一貫性を維持するために,潜在空間に新たな一貫性損失を持つ学習手法を提案する。
生成した画像の解像度は、可逆ネットワークを用いて元の画像と同一であることが保証される。
さらに、生成モデルによるようなランダムな画像ではないため、ネットワークはフリックなしで安定した出力を保証する。
実験により,提案アルゴリズムの有効性を確認し,ビデオフレーム補間におけるベースラインの新たな可能性として,可逆U-Netを提案する。
本論文は,ビデオ補間のための光フローではなく,可逆ネットワークを用いた世界初の試みである。
関連論文リスト
- Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Aggregating Nearest Sharp Features via Hybrid Transformers for Video Deblurring [70.06559269075352]
本稿では,隣接するフレームと既存のシャープフレームの両方を特徴集約のためにハイブリッドトランスフォーマーを用いて活用するビデオデブロアリング手法を提案する。
検出されたシャープフレームから最も近いシャープ特徴を集約するために,マルチスケールマッチング機能を備えたグローバルトランスを利用する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Cross-Attention Transformer for Video Interpolation [3.5317804902980527]
TAIN (Transformers and Attention for video Interpolation) は、2つの連続した画像フレームが配置された中間フレームを補間することを目的としている。
最初に、予測フレームと類似した外観の入力画像特徴をグローバルに集約するために、CS(Cross-Similarity)と呼ばれる新しいビジュアルトランスフォーマーモジュールを提示する。
CS特徴の排他性を考慮し,一方のフレームから他方のフレーム上のCS特徴に焦点を合わせるためのイメージアテンション(IA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-08T21:38:54Z) - W-Cell-Net: Multi-frame Interpolation of Cellular Microscopy Videos [1.7205106391379026]
蛍光顕微鏡タイムラプス映画の時間分解能を高めるため,近年のディープ・ビデオ・コンボリューションを応用した。
我々の知る限り、2つの連続した顕微鏡画像間のフレームを生成するために、CNN(Conal Neural Networks)を用いた以前の研究はない。
論文 参考訳(メタデータ) (2020-05-14T01:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。