論文の概要: TextOVSR: Text-Guided Real-World Opera Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2603.15153v1
- Date: Mon, 16 Mar 2026 11:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.183578
- Title: TextOVSR: Text-Guided Real-World Opera Video Super-Resolution
- Title(参考訳): TextOVSR: テキストガイド付きリアルタイムOperaビデオスーパーリゾリューション
- Authors: Hua Chang, Xin Xu, Wei Liu, Jiayi Wu, Kui Jiang, Fei Ma, Qi Tian,
- Abstract要約: 古典的なオペラビデオは、初期の撮影装置の限界と保存中の長期劣化により、視覚的品質が劣っている。
テキスト誘導型Dual-Branch Opera Video Super-Resolution Networkを提案する。
OperaLQベンチマークの実験では、TextOVSRは定性的にも量的にも最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 72.569334239113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many classic opera videos exhibit poor visual quality due to the limitations of early filming equipment and long-term degradation during storage. Although real-world video super-resolution (RWVSR) has achieved significant advances in recent years, directly applying existing methods to degraded opera videos remains challenging. The difficulties are twofold. First, accurately modeling real-world degradations is complex: simplistic combinations of classical degradation kernels fail to capture the authentic noise distribution, while methods that extract real noise patches from external datasets are prone to style mismatches that introduce visual artifacts. Second, current RWVSR methods, which rely solely on degraded image features, struggle to reconstruct realistic and detailed textures due to a lack of high-level semantic guidance. To address these issues, we propose a Text-guided Dual-Branch Opera Video Super-Resolution (TextOVSR) network, which introduces two types of textual prompts to guide the super-resolution process. Specifically, degradation-descriptive text, derived from the degradation process, is incorporated into the negative branch to constrain the solution space. Simultaneously, content-descriptive text is incorporated into a positive branch and our proposed Text-Enhanced Discriminator (TED) to provide semantic guidance for enhanced texture reconstruction. Furthermore, we design a Degradation-Robust Feature Fusion (DRF) module to facilitate cross-modal feature fusion while suppressing degradation interference. Experiments on our OperaLQ benchmark show that TextOVSR outperforms state-of-the-art methods both qualitatively and quantitatively. The code is available at https://github.com/ChangHua0/TextOVSR.
- Abstract(参考訳): 多くの古典的なオペラビデオは、初期の撮影装置の限界と保存中の長期劣化のために視界の質が劣っている。
近年,RWVSR (Real-world Video Super- resolution) は大きな進歩を遂げているが,既存の手法を劣化したオペラビデオに直接適用することは依然として困難である。
困難は2つある。
まず、現実世界の劣化を正確にモデル化するのは複雑である。古典的な分解カーネルの単純な組み合わせは、真にノイズの分布を捉えるのに失敗し、一方、外部データセットから実際のノイズパッチを抽出する手法は、視覚的なアーティファクトを導入するスタイルのミスマッチに傾向があります。
第二に、現在のRWVSR法は、劣化した画像の特徴にのみ依存しているが、高レベルのセマンティックガイダンスが欠如しているため、現実的で詳細なテクスチャの再構築に苦慮している。
これらの問題に対処するために,テキストガイド付きDual-Branch Opera Video Super-Resolution (TextOVSR) ネットワークを提案する。
具体的には、分解過程から導かれる劣化記述テキストを負の分岐に組み込んで解空間を制約する。
同時に、テクスチャ再構築のためのセマンティックガイダンスを提供するために、コンテンツ記述テキストを正の分岐とテキスト強調識別器(TED)に組み込む。
さらに, 劣化干渉を抑制しつつ, クロスモーダルな特徴融合を容易にするために, 劣化特性融合 (DRF) モジュールを設計する。
OperaLQベンチマークの実験では、TextOVSRは定性的にも量的にも最先端の手法よりも優れています。
コードはhttps://github.com/ChangHua0/TextOVSRで公開されている。
関連論文リスト
- Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。