論文の概要: Beyond a Video Frame Interpolator: A Space Decoupled Learning Approach
to Continuous Image Transition
- arxiv url: http://arxiv.org/abs/2203.09771v1
- Date: Fri, 18 Mar 2022 07:28:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:11:22.137644
- Title: Beyond a Video Frame Interpolator: A Space Decoupled Learning Approach
to Continuous Image Transition
- Title(参考訳): ビデオフレーム補間器を超えて:連続画像遷移への空間分離学習アプローチ
- Authors: Tao Yang, Peiran Ren, Xuansong Xie, Xiansheng Hua, and Lei Zhang
- Abstract要約: ビデオフレーム(VFI)は、ビデオシーケンスの時間分解能を改善することを目的としている。
既存のディープラーニングベースのVFI手法の多くは、双方向フローを推定するためにオフザシェルフ光フローアルゴリズムを採用している。
我々は、暗黙的に画像を翻訳可能なフロー空間と非翻訳可能な特徴空間に分離することを学ぶ。
- 参考スコア(独自算出の注目度): 40.970815093107774
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video frame interpolation (VFI) aims to improve the temporal resolution of a
video sequence. Most of the existing deep learning based VFI methods adopt
off-the-shelf optical flow algorithms to estimate the bidirectional flows and
interpolate the missing frames accordingly. Though having achieved a great
success, these methods require much human experience to tune the bidirectional
flows and often generate unpleasant results when the estimated flows are not
accurate. In this work, we rethink the VFI problem and formulate it as a
continuous image transition (CIT) task, whose key issue is to transition an
image from one space to another space continuously. More specifically, we learn
to implicitly decouple the images into a translatable flow space and a
non-translatable feature space. The former depicts the translatable states
between the given images, while the later aims to reconstruct the intermediate
features that cannot be directly translated. In this way, we can easily perform
image interpolation in the flow space and intermediate image synthesis in the
feature space, obtaining a CIT model. The proposed space decoupled learning
(SDL) approach is simple to implement, while it provides an effective framework
to a variety of CIT problems beyond VFI, such as style transfer and image
morphing. Our extensive experiments on a variety of CIT tasks demonstrate the
superiority of SDL to existing methods. The source code and models can be found
at \url{https://github.com/yangxy/SDL}.
- Abstract(参考訳): ビデオフレーム補間(VFI)は、ビデオシーケンスの時間分解能を改善することを目的としている。
既存のディープラーニングベースのVFI手法の多くは、オフザシェルフ光学フローアルゴリズムを採用し、双方向の流れを推定し、それに従って欠落フレームを補間する。
これらの手法は大きな成功を収めたものの、双方向の流れを調整するために多くの人間経験を必要とし、推定された流れが正確でない場合、しばしば不快な結果を生み出す。
本稿では,VFI問題を再考し,それを連続画像遷移(CIT)タスクとして定式化する。
より具体的には、画像を透過性フロー空間と非変換性特徴空間に暗黙的に分離することを学ぶ。
前者は与えられた画像間の翻訳可能な状態を描き、後者は直接翻訳できない中間的な特徴を再構築することを目指している。
このようにして、フロー空間における画像補間や特徴空間における中間画像合成を容易に行うことができ、CITモデルが得られる。
提案する空間疎結合学習(SDL)アプローチは実装が簡単であり,VFI以外の様々なCIT問題に対して,スタイル転送や画像変形などの効果的なフレームワークを提供する。
各種CITタスクに関する広範な実験は,既存の手法よりもSDLの方が優れていることを示す。
ソースコードとモデルは \url{https://github.com/yangxy/SDL} にある。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - Conditional Image-to-Video Generation with Latent Flow Diffusion Models [18.13991670747915]
条件付き画像合成(cI2V)は、画像と条件から始まる新しい可視映像を合成することを目的としている。
我々は,新しい潜流拡散モデル(LFDM)を用いたcI2Vのアプローチを提案する。
LFDMは、所定の条件に基づいて潜時空間内の光フローシーケンスを合成し、所定の画像をワープする。
論文 参考訳(メタデータ) (2023-03-24T01:54:26Z) - Progressive Temporal Feature Alignment Network for Video Inpainting [51.26380898255555]
ビデオ畳み込みは、時間内「破損した地域」に可能な内容で埋めることを目指しています。
現在の方法は、注意、フローベースのワープ、あるいは3次元時間的畳み込みによってこの目標を達成する。
現在のフレームから抽出された特徴を、隣接するフレームから歪んだ特徴で段階的に強化する「プログレッシブ・テンポラリティ・アライメント・ネットワーク」を提案します。
論文 参考訳(メタデータ) (2021-04-08T04:50:33Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。