論文の概要: EgoVSR: Towards High-Quality Egocentric Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2305.14708v2
- Date: Wed, 26 Jul 2023 08:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 15:33:19.502128
- Title: EgoVSR: Towards High-Quality Egocentric Video Super-Resolution
- Title(参考訳): EgoVSR: 高品質なEgocentric Video Super-Resolutionを目指す
- Authors: Yichen Chi, Junhao Gu, Jiamiao Zhang, Wenming Yang, Yapeng Tian
- Abstract要約: EgoVSRは、エゴセントリックビデオ用に特別に設計されたビデオ超解法フレームワークである。
VSRフレームワークのDual Branch Deblur Network (DB$2$Net) を用いて,エゴセントリックな動画における動きのぼかしに明示的に対処する。
一般的なVSRトレーニングデータに対するオンラインモーションブラー合成モデルを提案し,エゴセントリックビデオのような動きブラーをシミュレートした。
- 参考スコア(独自算出の注目度): 23.50915512118989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the limitations of capture devices and scenarios, egocentric videos
frequently have low visual quality, mainly caused by high compression and
severe motion blur. With the increasing application of egocentric videos, there
is an urgent need to enhance the quality of these videos through
super-resolution. However, existing Video Super-Resolution (VSR) works,
focusing on third-person view videos, are actually unsuitable for handling
blurring artifacts caused by rapid ego-motion and object motion in egocentric
videos. To this end, we propose EgoVSR, a VSR framework specifically designed
for egocentric videos. We explicitly tackle motion blurs in egocentric videos
using a Dual Branch Deblur Network (DB$^2$Net) in the VSR framework. Meanwhile,
a blurring mask is introduced to guide the DB$^2$Net learning, and can be used
to localize blurred areas in video frames. We also design a MaskNet to predict
the mask, as well as a mask loss to optimize the mask estimation. Additionally,
an online motion blur synthesis model for common VSR training data is proposed
to simulate motion blurs as in egocentric videos. In order to validate the
effectiveness of our proposed method, we introduce an EgoVSR dataset containing
a large amount of fast-motion egocentric video sequences. Extensive experiments
demonstrate that our EgoVSR model can efficiently super-resolve low-quality
egocentric videos and outperform strong comparison baselines. Our code,
pre-trained models and data can be found at https://github.com/chiyich/EGOVSR/.
- Abstract(参考訳): キャプチャ装置やシナリオの制限のため、エゴセントリックなビデオは視覚的品質が低く、主に高い圧縮と激しい動きのぼけによって引き起こされる。
エゴセントリックビデオの応用が増えているため、これらのビデオの品質を超高解像度で高める必要がある。
しかし、既存のVSR(Video Super-Resolution)の作品は、3人称ビュービデオに焦点をあてているが、エゴセントリックビデオの急激なエゴモーションや物体の動きによるぼやけたアーチファクトを扱うには適していない。
この目的のために,エゴセントリックなビデオに特化して設計されたVSRフレームワークであるEgoVSRを提案する。
VSRフレームワークのDual Branch Deblur Network (DB$^2$Net) を用いて,エゴセントリックな動画における動きのぼかしに明示的に対処する。
一方、DB$^2$Net学習のガイドとしてぼやけたマスクが導入され、ビデオフレーム内のぼやけた領域のローカライズに使用できる。
またマスク予測のためにMaskNetを設計し,マスク推定を最適化するためにマスク損失を予測した。
さらに, エゴセントリックビデオのように動きのぼやきをシミュレートするために, 一般的なvsrトレーニングデータに対するオンラインモーションボケ合成モデルを提案する。
提案手法の有効性を検証するため,多数の高速移動エゴセントリックなビデオシーケンスを含むEgoVSRデータセットを提案する。
我々のEgoVSRモデルは、低品質のエゴセントリックビデオを効率よく超解し、強力な比較ベースラインを上回ります。
私たちのコード、事前トレーニングされたモデル、データはhttps://github.com/chiyich/egovsr/で確認できます。
関連論文リスト
- EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。
EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文 参考訳(メタデータ) (2024-07-23T17:19:23Z) - Hybrid Structure-from-Motion and Camera Relocalization for Enhanced Egocentric Localization [64.08563002366812]
VQ3Dタスクのカメラポーズ推定部を改善するためのモデルアンサンブル戦略を提案する。
中心となるアイデアは、egocentric videoのSfMだけでなく、既存の3Dスキャンと2Dビデオフレームの2D-3Dマッチングも行うことだ。
本手法は,最も重要な指標である総合的な成功率に関して,最高の性能を達成する。
論文 参考訳(メタデータ) (2024-07-10T20:01:35Z) - EMAG: Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos [9.340890244344497]
2次元手の位置を予測するための既存の手法は視覚的表現に依存しており、主に手動物体の相互作用に焦点を当てている。
本研究では,エゴモーション認識と一般化可能な2次元手指予測手法であるEMAGを提案する。
本モデルでは,従来手法よりも1.7%,7.0%性能が向上した。
論文 参考訳(メタデータ) (2024-05-30T13:15:18Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - 3D Human Pose Perception from Egocentric Stereo Videos [67.9563319914377]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。
本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。
私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文 参考訳(メタデータ) (2023-12-30T21:21:54Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。