論文の概要: EgoVSR: Towards High-Quality Egocentric Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2305.14708v2
- Date: Wed, 26 Jul 2023 08:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 15:33:19.502128
- Title: EgoVSR: Towards High-Quality Egocentric Video Super-Resolution
- Title(参考訳): EgoVSR: 高品質なEgocentric Video Super-Resolutionを目指す
- Authors: Yichen Chi, Junhao Gu, Jiamiao Zhang, Wenming Yang, Yapeng Tian
- Abstract要約: EgoVSRは、エゴセントリックビデオ用に特別に設計されたビデオ超解法フレームワークである。
VSRフレームワークのDual Branch Deblur Network (DB$2$Net) を用いて,エゴセントリックな動画における動きのぼかしに明示的に対処する。
一般的なVSRトレーニングデータに対するオンラインモーションブラー合成モデルを提案し,エゴセントリックビデオのような動きブラーをシミュレートした。
- 参考スコア(独自算出の注目度): 23.50915512118989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the limitations of capture devices and scenarios, egocentric videos
frequently have low visual quality, mainly caused by high compression and
severe motion blur. With the increasing application of egocentric videos, there
is an urgent need to enhance the quality of these videos through
super-resolution. However, existing Video Super-Resolution (VSR) works,
focusing on third-person view videos, are actually unsuitable for handling
blurring artifacts caused by rapid ego-motion and object motion in egocentric
videos. To this end, we propose EgoVSR, a VSR framework specifically designed
for egocentric videos. We explicitly tackle motion blurs in egocentric videos
using a Dual Branch Deblur Network (DB$^2$Net) in the VSR framework. Meanwhile,
a blurring mask is introduced to guide the DB$^2$Net learning, and can be used
to localize blurred areas in video frames. We also design a MaskNet to predict
the mask, as well as a mask loss to optimize the mask estimation. Additionally,
an online motion blur synthesis model for common VSR training data is proposed
to simulate motion blurs as in egocentric videos. In order to validate the
effectiveness of our proposed method, we introduce an EgoVSR dataset containing
a large amount of fast-motion egocentric video sequences. Extensive experiments
demonstrate that our EgoVSR model can efficiently super-resolve low-quality
egocentric videos and outperform strong comparison baselines. Our code,
pre-trained models and data can be found at https://github.com/chiyich/EGOVSR/.
- Abstract(参考訳): キャプチャ装置やシナリオの制限のため、エゴセントリックなビデオは視覚的品質が低く、主に高い圧縮と激しい動きのぼけによって引き起こされる。
エゴセントリックビデオの応用が増えているため、これらのビデオの品質を超高解像度で高める必要がある。
しかし、既存のVSR(Video Super-Resolution)の作品は、3人称ビュービデオに焦点をあてているが、エゴセントリックビデオの急激なエゴモーションや物体の動きによるぼやけたアーチファクトを扱うには適していない。
この目的のために,エゴセントリックなビデオに特化して設計されたVSRフレームワークであるEgoVSRを提案する。
VSRフレームワークのDual Branch Deblur Network (DB$^2$Net) を用いて,エゴセントリックな動画における動きのぼかしに明示的に対処する。
一方、DB$^2$Net学習のガイドとしてぼやけたマスクが導入され、ビデオフレーム内のぼやけた領域のローカライズに使用できる。
またマスク予測のためにMaskNetを設計し,マスク推定を最適化するためにマスク損失を予測した。
さらに, エゴセントリックビデオのように動きのぼやきをシミュレートするために, 一般的なvsrトレーニングデータに対するオンラインモーションボケ合成モデルを提案する。
提案手法の有効性を検証するため,多数の高速移動エゴセントリックなビデオシーケンスを含むEgoVSRデータセットを提案する。
我々のEgoVSRモデルは、低品質のエゴセントリックビデオを効率よく超解し、強力な比較ベースラインを上回ります。
私たちのコード、事前トレーニングされたモデル、データはhttps://github.com/chiyich/egovsr/で確認できます。
関連論文リスト
- Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - Retrieval-Augmented Egocentric Video Captioning [55.96764681240016]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き寄せる新しいEgoExoNCE損失で、クロスビュー検索モジュールをトレーニングする。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - 3D Human Pose Perception from Egocentric Stereo Videos [74.23741075104166]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z) - Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @
Ego4d Looking at me Challenge [5.429147779652134]
VideoMAEは、セルフ教師付きビデオ事前トレーニングのためのデータ効率のよい事前トレーニングモデルである。
ビデオMAEから転送された表現は時空間モデルに優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T06:49:57Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。