論文の概要: SeeClear: Semantic Distillation Enhances Pixel Condensation for Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2410.05799v3
- Date: Sat, 26 Oct 2024 06:11:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:49:50.733605
- Title: SeeClear: Semantic Distillation Enhances Pixel Condensation for Video Super-Resolution
- Title(参考訳): SeeClear: セマンティック蒸留で高分解能ビデオが撮れる
- Authors: Qi Tang, Yao Zhao, Meiqin Liu, Chao Yao,
- Abstract要約: 拡散に基づくビデオ超解法(VSR)は、知覚的にリアルなビデオを生成することで有名である。
本稿では,条件付きビデオ生成を利用した新しいVSRフレームワークであるSeeeClearを紹介する。
我々のフレームワークはセマンティックディファイラとPixel Condenserを統合し、低解像度フレームからセマンティックディファイラを抽出し、より大規模なセマンティックディファイラを抽出する。
- 参考スコア(独自算出の注目度): 35.894647722880805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based Video Super-Resolution (VSR) is renowned for generating perceptually realistic videos, yet it grapples with maintaining detail consistency across frames due to stochastic fluctuations. The traditional approach of pixel-level alignment is ineffective for diffusion-processed frames because of iterative disruptions. To overcome this, we introduce SeeClear--a novel VSR framework leveraging conditional video generation, orchestrated by instance-centric and channel-wise semantic controls. This framework integrates a Semantic Distiller and a Pixel Condenser, which synergize to extract and upscale semantic details from low-resolution frames. The Instance-Centric Alignment Module (InCAM) utilizes video-clip-wise tokens to dynamically relate pixels within and across frames, enhancing coherency. Additionally, the Channel-wise Texture Aggregation Memory (CaTeGory) infuses extrinsic knowledge, capitalizing on long-standing semantic textures. Our method also innovates the blurring diffusion process with the ResShift mechanism, finely balancing between sharpness and diffusion effects. Comprehensive experiments confirm our framework's advantage over state-of-the-art diffusion-based VSR techniques. The code is available: https://github.com/Tang1705/SeeClear-NeurIPS24.
- Abstract(参考訳): 拡散に基づくビデオ超解法(VSR)は、知覚的にリアルなビデオを生成することで有名だが、確率的ゆらぎによるフレーム間の詳細整合性を維持している。
画素レベルのアライメントの従来のアプローチは、反復的破壊のために拡散処理されたフレームには効果がない。
これを解決するために、SeeClearという条件付きビデオ生成を利用した新しいVSRフレームワークを導入し、インスタンス中心のセマンティックコントロールとチャネルワイドのセマンティックコントロールによって構成する。
このフレームワークはSemantic DistillerとPixel Condenserを統合している。
インスタンス中心アライメントモジュール(InCAM)は、ビデオクリップワイズトークンを使用してフレーム内およびフレーム間のピクセルを動的に関連付け、コヒーレンシーを高める。
さらに、Channel-wise Texture Aggregation Memory (CaTeGory)は、長年のセマンティックなテクスチャを活かして、外生的な知識を注入する。
また,ResShift機構により拡散過程のぼかしを改良し,シャープネスと拡散効果の微妙なバランスをとる。
総合実験により、最先端拡散型VSR技術に対する我々のフレームワークの優位性が確認された。
コードは、https://github.com/Tang1705/SeeClear-NeurIPS24.comで入手できる。
関連論文リスト
- DaBiT: Depth and Blur informed Transformer for Joint Refocusing and Super-Resolution [4.332534893042983]
多くの現実のシナリオでは、録画されたビデオは偶然の焦点がぼやけている。
本稿では、焦点ずれ(再焦点)とビデオ超解像(VSR)に最適化されたフレームワークを提案する。
我々は、既存のビデオ復元方法よりも1.9dB以上のPSNR性能で、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-01T12:22:16Z) - Perception-Oriented Video Frame Interpolation via Asymmetric Blending [20.0024308216849]
ビデオフレーム補間(VFI)の従来の手法は、特にぼやけやゴースト効果の顕在化といった問題に直面している。
本稿では,これらの課題を軽減するためにPerVFI(Perception-oriented Video Frame Interpolation)を提案する。
実験により,PerVFIの優位性が検証され,既存の手法に比べて知覚品質が有意に向上した。
論文 参考訳(メタデータ) (2024-04-10T02:40:17Z) - Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Memory-Augmented Non-Local Attention for Video Super-Resolution [61.55700315062226]
低解像度(LR)ビデオから高忠実度高解像度(HR)ビデオを生成するための新しいビデオ超解法を提案する。
従来の方法は、主に時間的隣のフレームを利用して、現在のフレームの超解像を支援する。
対照的に、フレームアライメントなしでビデオの超解像を可能にするクロスフレーム非局所アテンション機構を考案する。
論文 参考訳(メタデータ) (2021-08-25T05:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。