論文の概要: Perception-Oriented Video Frame Interpolation via Asymmetric Blending
- arxiv url: http://arxiv.org/abs/2404.06692v1
- Date: Wed, 10 Apr 2024 02:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 15:39:25.699672
- Title: Perception-Oriented Video Frame Interpolation via Asymmetric Blending
- Title(参考訳): 非対称ブレンディングによる知覚指向ビデオフレーム補間
- Authors: Guangyang Wu, Xin Tao, Changlin Li, Wenyi Wang, Xiaohong Liu, Qingqing Zheng,
- Abstract要約: ビデオフレーム補間(VFI)の従来の手法は、特にぼやけやゴースト効果の顕在化といった問題に直面している。
本稿では,これらの課題を軽減するためにPerVFI(Perception-oriented Video Frame Interpolation)を提案する。
実験により,PerVFIの優位性が検証され,既存の手法に比べて知覚品質が有意に向上した。
- 参考スコア(独自算出の注目度): 20.0024308216849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous methods for Video Frame Interpolation (VFI) have encountered challenges, notably the manifestation of blur and ghosting effects. These issues can be traced back to two pivotal factors: unavoidable motion errors and misalignment in supervision. In practice, motion estimates often prove to be error-prone, resulting in misaligned features. Furthermore, the reconstruction loss tends to bring blurry results, particularly in misaligned regions. To mitigate these challenges, we propose a new paradigm called PerVFI (Perception-oriented Video Frame Interpolation). Our approach incorporates an Asymmetric Synergistic Blending module (ASB) that utilizes features from both sides to synergistically blend intermediate features. One reference frame emphasizes primary content, while the other contributes complementary information. To impose a stringent constraint on the blending process, we introduce a self-learned sparse quasi-binary mask which effectively mitigates ghosting and blur artifacts in the output. Additionally, we employ a normalizing flow-based generator and utilize the negative log-likelihood loss to learn the conditional distribution of the output, which further facilitates the generation of clear and fine details. Experimental results validate the superiority of PerVFI, demonstrating significant improvements in perceptual quality compared to existing methods. Codes are available at \url{https://github.com/mulns/PerVFI}
- Abstract(参考訳): ビデオフレーム補間(VFI)の従来の手法は、特にぼやけやゴースト効果の顕在化といった問題に直面している。
これらの問題は、避けられない動きの誤りと監督上のミスアライメントの2つの重要な要因に遡ることができる。
実際には、運動推定はエラーを起こしやすいことをしばしば証明し、不整合性をもたらす。
さらに、再建損失は、特に不整合領域において、ぼやけた結果をもたらす傾向にある。
これらの課題を軽減するために,PerVFI(Perception-oriented Video Frame Interpolation)と呼ばれる新しいパラダイムを提案する。
提案手法は, 両辺の特徴を相乗的にブレンドする非対称相乗的ブレンディングモジュール (ASB) を組み込んだものである。
1つの参照フレームは一次コンテンツを強調し、もう1つは補完情報に寄与する。
ブレンディングプロセスに厳密な制約を課すために,ゴーストやアウトプットのぼやけたアーティファクトを効果的に軽減する,自己学習型スパース準バイナリマスクを導入する。
さらに、正規化フローベースジェネレータを用い、負の対数損失を利用して出力の条件分布を学習し、より明確かつ詳細な情報の生成を容易にする。
実験により,PerVFIの優位性が検証され,既存の手法に比べて知覚品質が有意に向上した。
コードは \url{https://github.com/mulns/PerVFI} で入手できる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Don't Judge by the Look: Towards Motion Coherent Video Representation [56.09346222721583]
Motion Coherent Augmentation (MCA)は、ビデオ理解のためのデータ拡張手法である。
MCAはビデオの外観変化を導入し、静的な外観ではなく、モデルに動きのパターンを優先するよう暗黙的に促す。
論文 参考訳(メタデータ) (2024-03-14T15:53:04Z) - A Contrastive Variational Graph Auto-Encoder for Node Clustering [10.52321770126932]
最先端のクラスタリング手法には多くの課題がある。
既存のVGAEは、推論と生成モデルの相違を考慮していない。
私たちのソリューションには、フィーチャーランダムネスとフィーチャードリフトのトレードオフを制御する2つのメカニズムがあります。
論文 参考訳(メタデータ) (2023-12-28T05:07:57Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Making Reconstruction-based Method Great Again for Video Anomaly
Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。
既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。
連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-28T01:57:57Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - "I have vxxx bxx connexxxn!": Facing Packet Loss in Deep Speech Emotion
Recognition [0.0]
音声による感情認識を利用するアプリケーションでは、フレームロスは多様体の応用を考えると深刻な問題となる。
フレームロスが音声による感情認識に与える影響を初めて検討する。
論文 参考訳(メタデータ) (2020-05-15T19:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。