論文の概要: ConVRT: Consistent Video Restoration Through Turbulence with Test-time
Optimization of Neural Video Representations
- arxiv url: http://arxiv.org/abs/2312.04679v1
- Date: Thu, 7 Dec 2023 20:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 17:09:54.038622
- Title: ConVRT: Consistent Video Restoration Through Turbulence with Test-time
Optimization of Neural Video Representations
- Title(参考訳): ConVRT:ニューラルビデオ表現のテスト時間最適化による乱流による連続的ビデオ再生
- Authors: Haoming Cai, Jingxi Chen, Brandon Y. Feng, Weiyun Jiang, Mingyang Xie,
Kevin Zhang, Ashok Veeraraghavan, Christopher Metzler
- Abstract要約: 乱流を通した連続ビデオ再生(ConVRT)を自己管理する手法を提案する。
ConVRTは、回復時の時間的一貫性を高めるように設計されたニューラルビデオ表現を特徴とするテスト時間最適化手法である。
ConVRTの重要な革新は、セマンティック指向の監視のための事前訓練された視覚言語モデル(CLIP)の統合である。
- 参考スコア(独自算出の注目度): 13.38405890753946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: tmospheric turbulence presents a significant challenge in long-range imaging.
Current restoration algorithms often struggle with temporal inconsistency, as
well as limited generalization ability across varying turbulence levels and
scene content different than the training data. To tackle these issues, we
introduce a self-supervised method, Consistent Video Restoration through
Turbulence (ConVRT) a test-time optimization method featuring a neural video
representation designed to enhance temporal consistency in restoration. A key
innovation of ConVRT is the integration of a pretrained vision-language model
(CLIP) for semantic-oriented supervision, which steers the restoration towards
sharp, photorealistic images in the CLIP latent space. We further develop a
principled selection strategy of text prompts, based on their statistical
correlation with a perceptual metric. ConVRT's test-time optimization allows it
to adapt to a wide range of real-world turbulence conditions, effectively
leveraging the insights gained from pre-trained models on simulated data.
ConVRT offers a comprehensive and effective solution for mitigating real-world
turbulence in dynamic videos.
- Abstract(参考訳): tmospheric turbulenceは長距離撮影において重要な課題である。
現在の復元アルゴリズムは、時間的矛盾や、訓練データとは異なる乱流レベルやシーン内容の一般化能力の制限に苦しむことが多い。
このような問題に対処するために,我々は,時間的整合性を高めるように設計されたニューラルビデオ表現を備えたテスト時間最適化手法であるConVRT(Consistent Video Restoration through Turbulence)を導入する。
ConVRTの重要な革新は、セマンティック指向の監視のための事前訓練された視覚言語モデル(CLIP)の統合である。
さらに,知覚指標との統計的相関に基づいて,テキストプロンプトの原理的選択戦略を考案する。
ConVRTのテストタイム最適化により、シミュレーションデータ上で事前訓練されたモデルから得られた知見を効果的に活用し、幅広い現実世界の乱流条件に適応することができる。
ConVRTは、ダイナミックビデオにおける現実世界の乱流を緩和するための、包括的で効果的なソリューションを提供する。
関連論文リスト
- Learning Truncated Causal History Model for Video Restoration [14.381907888022615]
TURTLEは、効率的かつ高性能なビデオ復元のための散在した因果履歴モデルを学ぶ。
我々は,多数のビデオ復元ベンチマークタスクに関する最新の結果について報告する。
論文 参考訳(メタデータ) (2024-10-04T21:31:02Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。
1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。
本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Spatio-Temporal Turbulence Mitigation: A Translational Perspective [13.978156774471744]
深部大気乱流低減ネットワーク(DATUM)について紹介する。
DATUMは、古典的なアプローチからディープラーニングアプローチへの移行において、大きな課題を克服することを目指している。
大規模なトレーニングデータセットであるATSynは、実際の乱流における一般化を可能にする共発明として提示される。
論文 参考訳(メタデータ) (2024-01-08T21:35:05Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。
我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。
動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文 参考訳(メタデータ) (2023-12-01T14:40:07Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - Physics-Driven Turbulence Image Restoration with Stochastic Refinement [80.79900297089176]
大気乱流による画像歪みは、長距離光学画像システムにおいて重要な問題である。
ディープラーニングモデルが現実世界の乱流条件に適応するために、高速で物理学的なシミュレーションツールが導入された。
本稿では,物理統合復元ネットワーク(PiRN)を提案する。
論文 参考訳(メタデータ) (2023-07-20T05:49:21Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。