Fugu-MT 論文翻訳(概要): ConVRT: Consistent Video Restoration Through Turbulence with Test-time Optimization of Neural Video Representations

論文の概要: ConVRT: Consistent Video Restoration Through Turbulence with Test-time Optimization of Neural Video Representations

arxiv url: http://arxiv.org/abs/2312.04679v1
Date: Thu, 7 Dec 2023 20:19:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 17:09:54.038622
Title: ConVRT: Consistent Video Restoration Through Turbulence with Test-time Optimization of Neural Video Representations
Title（参考訳）: ConVRT:ニューラルビデオ表現のテスト時間最適化による乱流による連続的ビデオ再生
Authors: Haoming Cai, Jingxi Chen, Brandon Y. Feng, Weiyun Jiang, Mingyang Xie, Kevin Zhang, Ashok Veeraraghavan, Christopher Metzler
Abstract要約: 乱流を通した連続ビデオ再生(ConVRT)を自己管理する手法を提案する。 ConVRTは、回復時の時間的一貫性を高めるように設計されたニューラルビデオ表現を特徴とするテスト時間最適化手法である。 ConVRTの重要な革新は、セマンティック指向の監視のための事前訓練された視覚言語モデル(CLIP)の統合である。
参考スコア（独自算出の注目度）: 13.38405890753946
License: http://creativecommons.org/licenses/by/4.0/
Abstract: tmospheric turbulence presents a significant challenge in long-range imaging. Current restoration algorithms often struggle with temporal inconsistency, as well as limited generalization ability across varying turbulence levels and scene content different than the training data. To tackle these issues, we introduce a self-supervised method, Consistent Video Restoration through Turbulence (ConVRT) a test-time optimization method featuring a neural video representation designed to enhance temporal consistency in restoration. A key innovation of ConVRT is the integration of a pretrained vision-language model (CLIP) for semantic-oriented supervision, which steers the restoration towards sharp, photorealistic images in the CLIP latent space. We further develop a principled selection strategy of text prompts, based on their statistical correlation with a perceptual metric. ConVRT's test-time optimization allows it to adapt to a wide range of real-world turbulence conditions, effectively leveraging the insights gained from pre-trained models on simulated data. ConVRT offers a comprehensive and effective solution for mitigating real-world turbulence in dynamic videos.
Abstract（参考訳）: tmospheric turbulenceは長距離撮影において重要な課題である。現在の復元アルゴリズムは、時間的矛盾や、訓練データとは異なる乱流レベルやシーン内容の一般化能力の制限に苦しむことが多い。このような問題に対処するために,我々は,時間的整合性を高めるように設計されたニューラルビデオ表現を備えたテスト時間最適化手法であるConVRT(Consistent Video Restoration through Turbulence)を導入する。 ConVRTの重要な革新は、セマンティック指向の監視のための事前訓練された視覚言語モデル(CLIP)の統合である。さらに,知覚指標との統計的相関に基づいて,テキストプロンプトの原理的選択戦略を考案する。 ConVRTのテストタイム最適化により、シミュレーションデータ上で事前訓練されたモデルから得られた知見を効果的に活用し、幅広い現実世界の乱流条件に適応することができる。 ConVRTは、ダイナミックビデオにおける現実世界の乱流を緩和するための、包括的で効果的なソリューションを提供する。

関連論文リスト

DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-28T09:20:50Z)
Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T03:41:56Z)
DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations [25.756755602342942]
本稿では,この学習負担を段階的学習を通じて体系的に分解するプログレッシブ・ラーニング・ストラテジー(PLS)を特徴とするDiffVSRを提案する。我々のフレームワークには、追加のトレーニングオーバーヘッドを伴わずに競合時間一貫性を維持するILT(Interweaved Latent Transition)技術も組み込まれています。
論文参考訳（メタデータ） (2025-01-17T10:53:03Z)
VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文参考訳（メタデータ） (2024-12-16T01:28:04Z)
Spatio-Temporal Distortion Aware Omnidirectional Video Super-Resolution [25.615935776826596]
分解能を高めるためにビデオ超解像(SR)が提案されているが、実際のODV空間射影歪みと時間的フレッカリングは、既存の手法を直接的に適用するには十分ではない。本研究では, ODV-SR の再現性を向上させるため, ODV 特性を指向した時空間歪み認識ネットワーク (STDAN) を提案する。
論文参考訳（メタデータ） (2024-10-15T11:17:19Z)
Learning Truncated Causal History Model for Video Restoration [14.381907888022615]
TURTLEは、効率的かつ高性能なビデオ復元のための散在した因果履歴モデルを学ぶ。我々は,多数のビデオ復元ベンチマークタスクに関する最新の結果について報告する。
論文参考訳（メタデータ） (2024-10-04T21:31:02Z)
RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文参考訳（メタデータ） (2024-05-29T19:23:53Z)
Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition [68.6707284662443]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。 1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
論文参考訳（メタデータ） (2024-05-24T15:56:40Z)
Spatio-Temporal Turbulence Mitigation: A Translational Perspective [13.978156774471744]
深部大気乱流低減ネットワーク(DATUM)について紹介する。 DATUMは、古典的なアプローチからディープラーニングアプローチへの移行において、大きな課題を克服することを目指している。大規模なトレーニングデータセットであるATSynは、実際の乱流における一般化を可能にする共発明として提示される。
論文参考訳（メタデータ） (2024-01-08T21:35:05Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution [15.197746480157651]
本稿では,事前学習した潜伏拡散モデルの強度を利用した実世界のVSRアルゴリズムを提案する。我々は、LRビデオの時間的ダイナミクスを利用して、動作誘導損失で潜時サンプリング経路を最適化することにより拡散過程を導出する。動作誘導潜在拡散に基づくVSRアルゴリズムは、実世界のVSRベンチマークデータセットの最先端技術よりも、知覚品質が大幅に向上する。
論文参考訳（メタデータ） (2023-12-01T14:40:07Z)
Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。 2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文参考訳（メタデータ） (2023-09-04T14:18:00Z)
Physics-Driven Turbulence Image Restoration with Stochastic Refinement [80.79900297089176]
大気乱流による画像歪みは、長距離光学画像システムにおいて重要な問題である。ディープラーニングモデルが現実世界の乱流条件に適応するために、高速で物理学的なシミュレーションツールが導入された。本稿では,物理統合復元ネットワーク(PiRN)を提案する。
論文参考訳（メタデータ） (2023-07-20T05:49:21Z)
Intrinsic Temporal Regularization for High-resolution Human Video Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文参考訳（メタデータ） (2020-12-11T05:29:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。