論文の概要: SelfHVD: Self-Supervised Handheld Video Deblurring for Mobile Phones
- arxiv url: http://arxiv.org/abs/2508.08605v1
- Date: Tue, 12 Aug 2025 03:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.288825
- Title: SelfHVD: Self-Supervised Handheld Video Deblurring for Mobile Phones
- Title(参考訳): SelfHVD:携帯用自撮りハンドヘルドビデオ
- Authors: Honglei Xu, Zhilu Zhang, Junjie Fan, Xiaohe Wu, Wangmeng Zuo,
- Abstract要約: ビデオ中の鋭い手がかりによって駆動されるハンドヘルドビデオのデブロアリングを自己管理する手法を提案する。
劣化モデルを訓練するために,映像から鋭い手がかりを抽出し,近隣のぼやけたフレームの誤認識ラベルとみなす。
ハンドヘルドビデオデブロアリングのための合成および実世界のハンドヘルドビデオデータセットを構築した。
- 参考スコア(独自算出の注目度): 54.427316707517406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shooting video with a handheld mobile phone, the most common photographic device, often results in blurry frames due to shaking hands and other instability factors. Although previous video deblurring methods have achieved impressive progress, they still struggle to perform satisfactorily on real-world handheld video due to the blur domain gap between training and testing data. To address the issue, we propose a self-supervised method for handheld video deblurring, which is driven by sharp clues in the video. First, to train the deblurring model, we extract the sharp clues from the video and take them as misalignment labels of neighboring blurry frames. Second, to improve the model's ability, we propose a novel Self-Enhanced Video Deblurring (SEVD) method to create higher-quality paired video data. Third, we propose a Self-Constrained Spatial Consistency Maintenance (SCSCM) method to regularize the model, preventing position shifts between the output and input frames. Moreover, we construct a synthetic and a real-world handheld video dataset for handheld video deblurring. Extensive experiments on these two and other common real-world datasets demonstrate that our method significantly outperforms existing self-supervised ones. The code and datasets are publicly available at https://github.com/cshonglei/SelfHVD.
- Abstract(参考訳): 最も一般的な写真用デバイスである携帯端末でビデオを撮影すると、握手やその他の不安定な要因が原因でぼやけたフレームが生じる。
従来のビデオのデブロアリング手法は目覚ましい進歩を遂げたものの、トレーニングとテストデータのドメインギャップがぼやけているため、実世界のハンドヘルドビデオでは満足いく処理に苦慮している。
この問題に対処するために,ビデオ中の鋭い手がかりによって駆動されるハンドヘルドビデオデブロアリングの自己管理手法を提案する。
まず、デブロアリングモデルをトレーニングするために、ビデオから鋭い手がかりを抽出し、近隣のぼやけたフレームの誤調整ラベルとみなす。
第2に,高品質なペアビデオデータを作成するための自己拡張ビデオデブロアリング(SEVD)手法を提案する。
第3に,モデル正則化のための自己拘束型空間整合性維持法(SCSCM)を提案し,出力フレームと入力フレームの位置ずれを防止する。
さらに,ハンドヘルドビデオデブラリングのための,合成および実世界のハンドヘルドビデオデータセットを構築した。
これら2つの一般的な実世界のデータセットに対する大規模な実験は、我々の手法が既存の自己管理データセットよりも大幅に優れていることを示した。
コードとデータセットはhttps://github.com/cshonglei/SelfHVD.comで公開されている。
関連論文リスト
- ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation [20.689304579898728]
イベントベースのビデオフレーム補間(EVFI)は、動き誘導としてスパースで高時間分解能なイベント計測を使用する。
我々は、インターネット規模のデータセットで訓練された事前学習ビデオ拡散モデルをEVFIに適用する。
提案手法は既存の手法より優れており,カメラ全体の一般化が従来の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2024-12-10T18:55:30Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - Video Deblurring by Fitting to Test Data [39.41334067434719]
自律走行車やロボットが撮影した動画では、動きがぼやけている。
テストビデオにディープネットワークを組み込むことで,ビデオデブレーションに対する新たなアプローチを提案する。
ビデオからシャープなフレームを選択し、これらのシャープなフレームに畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-12-09T18:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。