論文の概要: Task Agnostic Restoration of Natural Video Dynamics
- arxiv url: http://arxiv.org/abs/2206.03753v2
- Date: Sat, 19 Aug 2023 04:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 03:04:29.199423
- Title: Task Agnostic Restoration of Natural Video Dynamics
- Title(参考訳): 自然映像ダイナミクスのタスク非依存修復
- Authors: Muhammad Kashif Ali, Dongjin Kim, Tae Hyun Kim
- Abstract要約: 多くのビデオ復元・翻訳タスクでは、各フレームを独立して処理することにより、画像処理操作を映像領域に「ナビ」拡張する。
本稿では,不整合ビデオから一貫した動きのダイナミクスを推論し,活用して時間的フリックを緩和する,このタスクのための一般的なフレームワークを提案する。
提案フレームワークは、多数の画像処理アプリケーションによって処理される2つのベンチマークデータセット、DAVISとvidevo.net上でSOTA結果を生成する。
- 参考スコア(独自算出の注目度): 10.078712109708592
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In many video restoration/translation tasks, image processing operations are
na\"ively extended to the video domain by processing each frame independently,
disregarding the temporal connection of the video frames. This disregard for
the temporal connection often leads to severe temporal inconsistencies.
State-Of-The-Art (SOTA) techniques that address these inconsistencies rely on
the availability of unprocessed videos to implicitly siphon and utilize
consistent video dynamics to restore the temporal consistency of frame-wise
processed videos which often jeopardizes the translation effect. We propose a
general framework for this task that learns to infer and utilize consistent
motion dynamics from inconsistent videos to mitigate the temporal flicker while
preserving the perceptual quality for both the temporally neighboring and
relatively distant frames without requiring the raw videos at test time. The
proposed framework produces SOTA results on two benchmark datasets, DAVIS and
videvo.net, processed by numerous image processing applications. The code and
the trained models are available at
\url{https://github.com/MKashifAli/TARONVD}.
- Abstract(参考訳): 多くのビデオ復元・翻訳タスクにおいて、映像フレームの時間的接続を無視して、各フレームを独立して処理することにより、画像処理操作を映像領域に「ナ\」拡張する。
この時間的つながりの無視は、しばしば深刻な時間的不整合を引き起こす。
これらの不整合に対処するSOTA(State-Of-The-Art)技術は、暗黙的にシフォンし、一貫したビデオダイナミクスを利用して、しばしば翻訳効果を損なうフレーム処理されたビデオの時間的一貫性を回復する。
そこで本研究では,実験時の生映像を必要とせず,隣接フレームと相対遠フレームの両方の知覚品質を維持しつつ,一致しない映像から一貫した動きダイナミクスを推定・活用し,時間的フリックを緩和する汎用的枠組みを提案する。
提案フレームワークは、多数の画像処理アプリケーションによって処理される2つのベンチマークデータセット、DAVISとvidevo.net上でSOTA結果を生成する。
コードとトレーニングされたモデルは、 \url{https://github.com/MKashifAli/TARONVD}で入手できる。
関連論文リスト
- VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - Blurry Video Compression: A Trade-off between Visual Enhancement and
Data Compression [65.8148169700705]
既存のビデオ圧縮(VC)手法は主に、ビデオ内の連続フレーム間の空間的および時間的冗長性を減らすことを目的としている。
これまでの研究は、インスタント(既知の)露光時間やシャッタースピードなどの特定の設定で取得されたビデオに対して、顕著な成果を上げてきた。
本研究では,シーン内のカメラ設定やダイナミックスによって,所定の映像がぼやけてしまうという一般的なシナリオにおいて,VCの問題に取り組む。
論文 参考訳(メタデータ) (2023-11-08T02:17:54Z) - LatentWarp: Consistent Diffusion Latents for Zero-Shot Video-to-Video
Translation [21.815083817914843]
我々はtextitLatentWarp というゼロショット動画翻訳フレームワークを提案する。
我々のアプローチは単純で、クエリトークンの時間的一貫性を制約するために、潜伏した空間にワープ操作を組み込む。
textitLatentWarpの時間的コヒーレンスによるビデオ間翻訳における優位性を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-11-01T08:02:57Z) - Sync-NeRF: Generalizing Dynamic NeRFs to Unsynchronized Videos [9.90835990611019]
個別の非同期ビデオのタイムオフセットを導入し、NeRFと共同でオフセットを最適化する。
オフセットを見つけることは、手動で動画を同期させるのに自然に役立ちます。
論文 参考訳(メタデータ) (2023-10-20T08:45:30Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。
フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。
我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文 参考訳(メタデータ) (2021-12-02T12:13:56Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。