論文の概要: Clearer Frames, Anytime: Resolving Velocity Ambiguity in Video Frame
Interpolation
- arxiv url: http://arxiv.org/abs/2311.08007v1
- Date: Tue, 14 Nov 2023 09:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:51:45.015231
- Title: Clearer Frames, Anytime: Resolving Velocity Ambiguity in Video Frame
Interpolation
- Title(参考訳): ビデオフレーム補間における速度の曖昧さの解消
- Authors: Zhihang Zhong, Gurunandan Krishnan, Xiao Sun, Yu Qiao, Sizhuo Ma, and
Jian Wang
- Abstract要約: ビデオフレームのタイム・ツー・ロケーションマッピングに対する新しいアプローチを提案する。
この複雑なタイム・ツー・ロケーションのマッピングを、フレームの予測と合わせて暗黙的に学習させるのではなく、オブジェクトが開始フレームと終了フレームの間をどこまで移動したかを示す明確なヒントをネットワークに提供する。
この方法は、モデルに対するより明確な学習目標を提供し、オブジェクトの速度に関連する不確実性を低減します。
- 参考スコア(独自算出の注目度): 27.007818908013327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video frame interpolation (VFI) methods blindly predict where each
object is at a specific timestep t ("time indexing"), which struggles to
predict precise object movements. Given two images of a baseball, there are
infinitely many possible trajectories: accelerating or decelerating, straight
or curved. This often results in blurry frames as the method averages out these
possibilities. Instead of forcing the network to learn this complicated
time-to-location mapping implicitly together with predicting the frames, we
provide the network with an explicit hint on how far the object has traveled
between start and end frames, a novel approach termed "distance indexing". This
method offers a clearer learning goal for models, reducing the uncertainty tied
to object speeds. We further observed that, even with this extra guidance,
objects can still be blurry especially when they are equally far from both
input frames (i.e., halfway in-between), due to the directional ambiguity in
long-range motion. To solve this, we propose an iterative reference-based
estimation strategy that breaks down a long-range prediction into several
short-range steps. When integrating our plug-and-play strategies into
state-of-the-art learning-based models, they exhibit markedly sharper outputs
and superior perceptual quality in arbitrary time interpolations, using a
uniform distance indexing map in the same format as time indexing.
Additionally, distance indexing can be specified pixel-wise, which enables
temporal manipulation of each object independently, offering a novel tool for
video editing tasks like re-timing.
- Abstract(参考訳): 既存のビデオフレーム補間(VFI)手法は、各オブジェクトが特定の時間ステップt(時間インデックス)のどこにいるかを盲目的に予測する。
野球のイメージが2つあるとすると、加速、減速、直線または湾曲の可能な軌道が無限に存在する。
これはしばしばぼやけたフレームとなり、メソッドはこれらの可能性を平均化する。
ネットワークにこの複雑な時間-位置マッピングを暗黙的に学習させ、フレームを予測するのではなく、ネットワークに、オブジェクトがスタートフレームとエンドフレームの間をどこまで移動したかを明確に示すヒントを与えます。
この方法はモデルの明確な学習目標を提供し、オブジェクトの速度に関連する不確実性を低減する。
さらに,この余分なガイダンスによっても,遠距離移動の方向あいまいさのため,特に両入力フレーム(すなわち中間間)から等しく離れている場合には,物体がぼやけやすいことも観察した。
そこで本研究では,長距離予測を複数の短距離ステップに分割する反復参照ベース推定手法を提案する。
プラグアンドプレイ戦略を最先端の学習ベースモデルに組み込むと、時間インデックス化と同じフォーマットの均一距離インデックスマップを用いて、任意の時間補間において、はるかにシャープな出力と優れた知覚品質を示す。
さらに、距離インデクシングをピクセル単位で指定することで、各オブジェクトの時間的操作を独立に可能とし、リタイピングのようなビデオ編集タスクのための新しいツールを提供する。
関連論文リスト
- Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文 参考訳(メタデータ) (2024-03-21T17:57:31Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Non-linear Motion Estimation for Video Frame Interpolation using
Space-time Convolutions [18.47978862083129]
ビデオフレームは、ビデオ内の2つの連続するフレーム間で1つまたは複数のフレームを合成することを目的としている。
いくつかの古い研究は、ビデオフレーム間のピクセルごとの線形運動を仮定することでこの問題に対処した。
本稿では,使用すべき動作モデルを適応的に選択可能な時空間畳み込みネットワークを用いて,画素あたりの動きを近似することを提案する。
論文 参考訳(メタデータ) (2022-01-27T09:49:23Z) - Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。
フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。
我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文 参考訳(メタデータ) (2021-12-02T12:13:56Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。