論文の概要: Global Spatial-Temporal Information-based Residual ConvLSTM for Video Space-Time Super-Resolution
- arxiv url: http://arxiv.org/abs/2407.08466v1
- Date: Thu, 11 Jul 2024 13:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:29:40.206308
- Title: Global Spatial-Temporal Information-based Residual ConvLSTM for Video Space-Time Super-Resolution
- Title(参考訳): 時空間情報に基づくビデオ時空間超解法のための残差型ConvLSTM
- Authors: Congrui Fu, Hui Yuan, Shiqi Jiang, Guanghui Zhang, Liquan Shen, Raouf Hamzaoui,
- Abstract要約: 我々は、時空ビデオ超解像、すなわちGIRNetのための畳み込みニューラルネットワーク(CNN)を提案する。
高精度な特徴を生成するため,提案ネットワークは,特徴レベル時間モジュールと変形可能な畳み込みと,大域空間時空間情報に基づく残差畳み込み長短期記憶(convLSTM)を統合した。
Vimeo90Kデータセットの実験により,提案手法は,STARnet,TMNet,3DAttGAN上でのピーク信号対雑音比(1.45dB,1.14dB,0.02dB)において,最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 29.74501891293423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By converting low-frame-rate, low-resolution videos into high-frame-rate, high-resolution ones, space-time video super-resolution techniques can enhance visual experiences and facilitate more efficient information dissemination. We propose a convolutional neural network (CNN) for space-time video super-resolution, namely GIRNet. To generate highly accurate features and thus improve performance, the proposed network integrates a feature-level temporal interpolation module with deformable convolutions and a global spatial-temporal information-based residual convolutional long short-term memory (convLSTM) module. In the feature-level temporal interpolation module, we leverage deformable convolution, which adapts to deformations and scale variations of objects across different scene locations. This presents a more efficient solution than conventional convolution for extracting features from moving objects. Our network effectively uses forward and backward feature information to determine inter-frame offsets, leading to the direct generation of interpolated frame features. In the global spatial-temporal information-based residual convLSTM module, the first convLSTM is used to derive global spatial-temporal information from the input features, and the second convLSTM uses the previously computed global spatial-temporal information feature as its initial cell state. This second convLSTM adopts residual connections to preserve spatial information, thereby enhancing the output features. Experiments on the Vimeo90K dataset show that the proposed method outperforms state-of-the-art techniques in peak signal-to-noise-ratio (by 1.45 dB, 1.14 dB, and 0.02 dB over STARnet, TMNet, and 3DAttGAN, respectively), structural similarity index(by 0.027, 0.023, and 0.006 over STARnet, TMNet, and 3DAttGAN, respectively), and visually.
- Abstract(参考訳): 低フレームレート、低解像度の動画を高フレームレート、高解像度の映像に変換することで、時空ビデオの超高解像度技術は視覚的体験を高め、より効率的な情報伝達を促進することができる。
我々は、時空ビデオ超解像、すなわちGIRNetのための畳み込みニューラルネットワーク(CNN)を提案する。
高精度な特徴を生成し,性能を向上させるため,提案ネットワークでは,変形可能な畳み込みとグローバル空間時空間情報に基づく残差畳み込み長短期メモリ(convLSTM)モジュールを統合した特徴レベル時間補間モジュールを提案する。
特徴レベルの時間的補間モジュールでは、変形可能な畳み込みを利用して、異なるシーンにおけるオブジェクトの変形やスケールのばらつきに適応する。
これにより、移動物体から特徴を抽出する従来の畳み込みよりも効率的な解が得られる。
我々のネットワークは、フレーム間オフセットを決定するために、前方および後方の特徴情報を効果的に利用し、補間フレーム特徴の直接生成に繋がる。
第1のconvLSTMは、入力された特徴からグローバルな時空間情報を導出するために、第2のconvLSTMは、予め計算されたグローバルな時空間情報特徴を初期セル状態として使用する。
この第2のconvLSTMは、空間情報を保持するために残留接続を採用し、出力特性を向上する。
Vimeo90Kデータセット上での実験により,提案手法はピーク信号対雑音比(STARnet,TMNet,3DAttGANでそれぞれ1.45dB,1.14dB,0.02dB),構造的類似度指数(STARnet,TMNet,3DAtGANで0.027,0.023,0.006)において,最先端技術よりも優れていた。
関連論文リスト
- Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - Local-Global Temporal Difference Learning for Satellite Video
Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Enhancing Space-time Video Super-resolution via Spatial-temporal Feature
Interaction [9.456643513690633]
時空ビデオ超解像(STVSR)の目的は、ビデオのフレームレートと空間解像度の両方を増加させることである。
近年のアプローチでは、エンドツーエンドのディープニューラルネットワークを用いてSTVSRを解く。
本研究では,空間的・時間的相関を利用してSTVSRを強化する空間的・時間的特徴相互作用ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-18T22:10:57Z) - STDAN: Deformable Attention Network for Space-Time Video
Super-Resolution [39.18399652834573]
本稿では,STDAN と呼ばれる,STVSR のための変形可能なアテンションネットワークを提案する。
まず、より近隣の入力フレームから豊富なコンテンツを得ることができるLSTFI(long-short term feature)モジュールを考案する。
第2に,空間的・時間的文脈を適応的に捕捉・集約する時空間変形可能特徴集合(STDFA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-14T03:40:35Z) - MEGAN: Memory Enhanced Graph Attention Network for Space-Time Video
Super-Resolution [8.111645835455658]
時空ビデオスーパー解像度(STVSR)は、対応する低フレームレートの低解像度ビデオシーケンスから高解像度ビデオシーケンスを構築することを目的としている。
近年の時空超解像における時空間情報の考察の成功に触発されて,本研究の主な目的は空間的・時空間的相関を十分に考慮することである。
論文 参考訳(メタデータ) (2021-10-28T17:37:07Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - Temporal Modulation Network for Controllable Space-Time Video
Super-Resolution [66.06549492893947]
宇宙時間のビデオ超解像度は、低解像度と低フレームレートのビデオの空間的および時間的解像度を高めることを目指しています。
変形性畳み込み法は、有望なSTVSR性能を達成したが、トレーニング段階で事前に定義された中間フレームのみを推測することができた。
本稿では,任意の中間フレームを高精度な高分解能再構成で補間する時間変調ネットワーク(tmnet)を提案する。
論文 参考訳(メタデータ) (2021-04-21T17:10:53Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。