Fugu-MT 論文翻訳(概要): EgoVSR: Towards High-Quality Egocentric Video Super-Resolution

論文の概要: EgoVSR: Towards High-Quality Egocentric Video Super-Resolution

arxiv url: http://arxiv.org/abs/2305.14708v2
Date: Wed, 26 Jul 2023 08:44:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-27 15:33:19.502128
Title: EgoVSR: Towards High-Quality Egocentric Video Super-Resolution
Title（参考訳）: EgoVSR: 高品質なEgocentric Video Super-Resolutionを目指す
Authors: Yichen Chi, Junhao Gu, Jiamiao Zhang, Wenming Yang, Yapeng Tian
Abstract要約: EgoVSRは、エゴセントリックビデオ用に特別に設計されたビデオ超解法フレームワークである。 VSRフレームワークのDual Branch Deblur Network (DB$2$Net) を用いて,エゴセントリックな動画における動きのぼかしに明示的に対処する。一般的なVSRトレーニングデータに対するオンラインモーションブラー合成モデルを提案し,エゴセントリックビデオのような動きブラーをシミュレートした。
参考スコア（独自算出の注目度）: 23.50915512118989
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the limitations of capture devices and scenarios, egocentric videos frequently have low visual quality, mainly caused by high compression and severe motion blur. With the increasing application of egocentric videos, there is an urgent need to enhance the quality of these videos through super-resolution. However, existing Video Super-Resolution (VSR) works, focusing on third-person view videos, are actually unsuitable for handling blurring artifacts caused by rapid ego-motion and object motion in egocentric videos. To this end, we propose EgoVSR, a VSR framework specifically designed for egocentric videos. We explicitly tackle motion blurs in egocentric videos using a Dual Branch Deblur Network (DB$^2$Net) in the VSR framework. Meanwhile, a blurring mask is introduced to guide the DB$^2$Net learning, and can be used to localize blurred areas in video frames. We also design a MaskNet to predict the mask, as well as a mask loss to optimize the mask estimation. Additionally, an online motion blur synthesis model for common VSR training data is proposed to simulate motion blurs as in egocentric videos. In order to validate the effectiveness of our proposed method, we introduce an EgoVSR dataset containing a large amount of fast-motion egocentric video sequences. Extensive experiments demonstrate that our EgoVSR model can efficiently super-resolve low-quality egocentric videos and outperform strong comparison baselines. Our code, pre-trained models and data can be found at https://github.com/chiyich/EGOVSR/.
Abstract（参考訳）: キャプチャ装置やシナリオの制限のため、エゴセントリックなビデオは視覚的品質が低く、主に高い圧縮と激しい動きのぼけによって引き起こされる。エゴセントリックビデオの応用が増えているため、これらのビデオの品質を超高解像度で高める必要がある。しかし、既存のVSR(Video Super-Resolution)の作品は、3人称ビュービデオに焦点をあてているが、エゴセントリックビデオの急激なエゴモーションや物体の動きによるぼやけたアーチファクトを扱うには適していない。この目的のために,エゴセントリックなビデオに特化して設計されたVSRフレームワークであるEgoVSRを提案する。 VSRフレームワークのDual Branch Deblur Network (DB$^2$Net) を用いて,エゴセントリックな動画における動きのぼかしに明示的に対処する。一方、DB$^2$Net学習のガイドとしてぼやけたマスクが導入され、ビデオフレーム内のぼやけた領域のローカライズに使用できる。またマスク予測のためにMaskNetを設計し,マスク推定を最適化するためにマスク損失を予測した。さらに, エゴセントリックビデオのように動きのぼやきをシミュレートするために, 一般的なvsrトレーニングデータに対するオンラインモーションボケ合成モデルを提案する。提案手法の有効性を検証するため,多数の高速移動エゴセントリックなビデオシーケンスを含むEgoVSRデータセットを提案する。我々のEgoVSRモデルは、低品質のエゴセントリックビデオを効率よく超解し、強力な比較ベースラインを上回ります。私たちのコード、事前トレーニングされたモデル、データはhttps://github.com/chiyich/egovsr/で確認できます。

関連論文リスト

Fine-grained Spatiotemporal Grounding on Egocentric Videos [13.319346673043286]
EgoMaskは、エゴセントリックビデオの微細時間グラウンド化のための最初のピクセルレベルのベンチマークである。 EgoMaskは、式やオブジェクトマスクを参照するアノテーションパイプラインによって構築されている。また、モデル開発を容易にする大規模なトレーニングデータセットであるEgoMask-Trainも作成しています。
論文参考訳（メタデータ） (2025-08-01T10:53:27Z)
EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent [41.11532785015233]
EgoPrune(エゴプルーン)は、エゴモーションビデオの推論に適した、トレーニング不要のトークンプルーニング手法である。 EgoPruneは、様々なプルーニング比率で、トレーニング不要のメソッドを一貫して上回っている。我々はEgoPruneをJetson Orin NX 16GBエッジデバイスを備えたエンボディエージェント上に展開する。
論文参考訳（メタデータ） (2025-07-21T09:27:45Z)
Object-Shot Enhanced Grounding Network for Egocentric Video [60.97916755629796]
我々は,エゴセントリックビデオのためのオブジェクトショット拡張グラウンドネットワークOSGNetを提案する。具体的には,映像表現を豊かにするために,映像から対象情報を抽出する。我々は,エゴセントリックなビデオに固有の撮影動作を分析し,これらの特徴を活用して,装着者の注意情報を抽出する。
論文参考訳（メタデータ） (2025-05-07T09:20:12Z)
EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos [49.24266108952835]
エゴ中心の動画、対応するエゴ中心のビデオの最初のフレーム、テキストによる指示が与えられたら、エゴ中心のビデオの未来的なフレームを生成することが目的である。 EgoExo-Genは、クロスビュービデオ予測のための手動オブジェクトのダイナミクスを明示的にモデル化する。
論文参考訳（メタデータ） (2025-04-16T03:12:39Z)
EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos [26.930652137352197]
我々は、EgoToMというビデオ質問応答ベンチマークを導入し、エゴセントリックなドメインに対する理論・オブ・ミンドの評価を拡張した。因果ToMモデルを用いて、Ego4Dデータセットのマルチ選択ビデオQAインスタンスを生成し、カメラ装着者の目標、信念、次のアクションを予測する能力をベンチマークする。これら3つの相互接続型推論問題に対して,人間と芸術マルチモーダル大言語モデル(MLLM)の性能について検討した。
論文参考訳（メタデータ） (2025-03-28T05:10:59Z)
EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。 EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文参考訳（メタデータ） (2024-07-23T17:19:23Z)
Hybrid Structure-from-Motion and Camera Relocalization for Enhanced Egocentric Localization [64.08563002366812]
VQ3Dタスクのカメラポーズ推定部を改善するためのモデルアンサンブル戦略を提案する。中心となるアイデアは、egocentric videoのSfMだけでなく、既存の3Dスキャンと2Dビデオフレームの2D-3Dマッチングも行うことだ。本手法は,最も重要な指標である総合的な成功率に関して,最高の性能を達成する。
論文参考訳（メタデータ） (2024-07-10T20:01:35Z)
EMAG: Ego-motion Aware and Generalizable 2D Hand Forecasting from Egocentric Videos [9.340890244344497]
2次元手の位置を予測するための既存の手法は視覚的表現に依存しており、主に手動物体の相互作用に焦点を当てている。本研究では,エゴモーション認識と一般化可能な2次元手指予測手法であるEMAGを提案する。本モデルでは,従来手法よりも1.7%,7.0%性能が向上した。
論文参考訳（メタデータ） (2024-05-30T13:15:18Z)
Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文参考訳（メタデータ） (2024-01-01T15:31:06Z)
3D Human Pose Perception from Egocentric Stereo Videos [67.9563319914377]
我々は,エゴセントリックな立体3次元ポーズ推定を改善するためのトランスフォーマーベースの新しいフレームワークを提案する。本手法は, しゃがんだり座ったりといった困難なシナリオにおいても, 人間のポーズを正確に推定することができる。私たちはUnrealEgo2、UnrealEgo-RW、およびトレーニングされたモデルをプロジェクトページでリリースします。
論文参考訳（メタデータ） (2023-12-30T21:21:54Z)
EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。 Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文参考訳（メタデータ） (2023-01-05T18:39:23Z)
Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。 Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文参考訳（メタデータ） (2022-12-09T02:25:20Z)
Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。 3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文参考訳（メタデータ） (2022-06-03T16:28:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。