論文の概要: Clearer Frames, Anytime: Resolving Velocity Ambiguity in Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2311.08007v2
- Date: Wed, 17 Jul 2024 05:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 23:18:25.735628
- Title: Clearer Frames, Anytime: Resolving Velocity Ambiguity in Video Frame Interpolation
- Title(参考訳): ビデオフレーム補間における速度の曖昧さの解消
- Authors: Zhihang Zhong, Xiao Sun, Yu Qiao, Gurunandan Krishnan, Sizhuo Ma, Jian Wang,
- Abstract要約: 既存のビデオフレーム(VFI)メソッドは、各オブジェクトが特定の時刻tにどこにいるかを盲目的に予測する。
このことは、メソッドがこれらの可能性を平均化するにつれて、しばしばぼやけたフレームをもたらす。
この複雑なタイム・ツー・ロケーションのマッピングを、フレームの予測と合わせて暗黙的に学習させるのではなく、オブジェクトが開始フレームと終了フレームの間をどこまで移動したかを示す明確なヒントをネットワークに提供する。
- 参考スコア(独自算出の注目度): 27.007818908013327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video frame interpolation (VFI) methods blindly predict where each object is at a specific timestep t ("time indexing"), which struggles to predict precise object movements. Given two images of a baseball, there are infinitely many possible trajectories: accelerating or decelerating, straight or curved. This often results in blurry frames as the method averages out these possibilities. Instead of forcing the network to learn this complicated time-to-location mapping implicitly together with predicting the frames, we provide the network with an explicit hint on how far the object has traveled between start and end frames, a novel approach termed "distance indexing". This method offers a clearer learning goal for models, reducing the uncertainty tied to object speeds. We further observed that, even with this extra guidance, objects can still be blurry especially when they are equally far from both input frames (i.e., halfway in-between), due to the directional ambiguity in long-range motion. To solve this, we propose an iterative reference-based estimation strategy that breaks down a long-range prediction into several short-range steps. When integrating our plug-and-play strategies into state-of-the-art learning-based models, they exhibit markedly sharper outputs and superior perceptual quality in arbitrary time interpolations, using a uniform distance indexing map in the same format as time indexing. Additionally, distance indexing can be specified pixel-wise, which enables temporal manipulation of each object independently, offering a novel tool for video editing tasks like re-timing. The code is available at https://zzh-tech.github.io/InterpAny-Clearer/
- Abstract(参考訳): 既存のビデオフレーム補間(VFI)手法は、各オブジェクトが特定の時間ステップt(時間インデックス)のどこにいるかを盲目的に予測する。
野球のイメージが2つあるとすると、加速、減速、直線または湾曲の可能な軌道が無限に存在する。
このことは、メソッドがこれらの可能性を平均化するにつれて、しばしばぼやけたフレームをもたらす。
この複雑なタイム・ツー・ロケーションのマッピングを、フレームの予測とともに暗黙的に学習させるのではなく、オブジェクトが開始フレームと終了フレームの間をどこまで移動したかを明確に示し、"距離インデックス化(distance indexing)"と呼ばれる新しいアプローチを提供する。
この方法は、モデルに対するより明確な学習目標を提供し、オブジェクトの速度に関連する不確実性を低減します。
さらに、この余分なガイダンスであっても、物体は長距離運動における方向のあいまいさのため、特に両方の入力フレーム(すなわち、中間方向)から等しく離れている場合、ぼやけてしまう可能性があることを観察した。
そこで本研究では,長距離予測を複数の短距離ステップに分割する反復参照ベース推定手法を提案する。
プラグアンドプレイ戦略を最先端の学習ベースモデルに組み込むと、時間インデックス化と同じフォーマットの均一距離インデックスマップを用いて、任意の時間補間において、はるかにシャープな出力と優れた知覚品質を示す。
さらに、距離インデクシングをピクセル単位で指定することで、各オブジェクトの時間的操作を独立に可能とし、リタイピングのようなビデオ編集タスクのための新しいツールを提供する。
コードはhttps://zzh-tech.github.io/InterpAny-Clearer/で公開されている。
関連論文リスト
- Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文 参考訳(メタデータ) (2024-03-21T17:57:31Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Non-linear Motion Estimation for Video Frame Interpolation using
Space-time Convolutions [18.47978862083129]
ビデオフレームは、ビデオ内の2つの連続するフレーム間で1つまたは複数のフレームを合成することを目的としている。
いくつかの古い研究は、ビデオフレーム間のピクセルごとの線形運動を仮定することでこの問題に対処した。
本稿では,使用すべき動作モデルを適応的に選択可能な時空間畳み込みネットワークを用いて,画素あたりの動きを近似することを提案する。
論文 参考訳(メタデータ) (2022-01-27T09:49:23Z) - Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。
フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。
我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文 参考訳(メタデータ) (2021-12-02T12:13:56Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。