論文の概要: DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba
- arxiv url: http://arxiv.org/abs/2408.10679v2
- Date: Mon, 18 Nov 2024 07:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:11.609109
- Title: DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba
- Title(参考訳): DemMamba: 周波数アシスト型時空間マンバによるアライメントなし生動画のデモ
- Authors: Shuning Xu, Xina Liu, Binbin Song, Xiangyu Chen, Qiubo Chen, Jiantao Zhou,
- Abstract要約: 2つの同様の反復パターンの干渉によるモアレパターンは、画面上の画像やビデオのキャプチャ中に頻繁に観察される。
本稿では,周波数アシスト型マンバを用いたアライメントレス生ビデオ復調ネットワークを提案する。
提案するDemMambaはPSNRで1.3dBの最先端手法を超越し,良好な視覚体験を提供する。
- 参考スコア(独自算出の注目度): 18.06907326360215
- License:
- Abstract: Moire patterns, resulting from the interference of two similar repetitive patterns, are frequently observed during the capture of images or videos on screens. These patterns vary in color, shape, and location across video frames, posing challenges in extracting information from adjacent frames and preserving temporal consistency throughout the restoration process. Existing deep learning methods often depend on well-designed alignment modules, such as optical flow estimation, deformable convolution, and cross-frame self-attention layers, incurring high computational costs. Recent studies indicate that utilizing raw data as input can significantly improve the effectiveness of video demoireing by providing the pristine degradation information and more detailed content. However, previous works fail to design both efficient and effective raw video demoireing methods that can maintain temporal consistency and prevent degradation of color and spatial details. This paper introduces a novel alignment-free raw video demoireing network with frequency-assisted spatio-temporal Mamba (DemMamba). It features sequentially arranged Spatial Mamba Blocks (SMB) and Temporal Mamba Blocks (TMB) to effectively model the inter- and intra-relationships in raw videos affected by moire patterns. An Adaptive Frequency Block (AFB) within the SMB facilitates demoireing in the frequency domain, while a Channel Attention Block (CAB) in the TMB enhances the temporal information interactions by leveraging inter-channel relationships among features. Extensive experiments demonstrate that our proposed DemMamba surpasses state-of-the-art methods by 1.3 dB in PSNR, and also provides a satisfactory visual experience.
- Abstract(参考訳): 2つの同様の反復パターンの干渉によるモアレパターンは、画面上の画像やビデオのキャプチャ中に頻繁に観察される。
これらのパターンは、ビデオフレーム間の色、形状、位置によって異なり、隣接するフレームから情報を抽出し、復元プロセスを通して時間的一貫性を保つことの難しさを浮き彫りにしている。
既存のディープラーニング手法は、光学フロー推定、変形可能な畳み込み、フレーム間自己アテンション層など、よく設計されたアライメントモジュールに依存しており、高い計算コストがかかる。
近年の研究では、プリスタン劣化情報とより詳細なコンテンツを提供することにより、生データを入力として活用することで、映像復調の有効性を著しく向上させることができることが示されている。
しかし、従来の研究では、時間的一貫性を保ち、色や空間的詳細の劣化を防止できる、効率的かつ効果的な生ビデオ復号法の両方を設計できなかった。
本稿では,周波数アシスト型時空間マンバ(DemMamba)を用いたアライメントレス生ビデオ復調ネットワークを提案する。
連続的に配置された空間マンバブロック(SMB)とテンポラルマンバブロック(TMB)を特徴とし、モアレパターンに影響された生ビデオの相互関係と相互関係を効果的にモデル化する。
SMB内の適応周波数ブロック(AFB)は周波数領域の復調を容易にする一方、TMB内のチャネルアテンションブロック(CAB)は特徴間のチャネル間関係を利用して時間情報相互作用を強化する。
広汎な実験により,提案手法がPSNRの1.3dBを超えることが確認された。
関連論文リスト
- Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Deep Video Matting via Spatio-Temporal Alignment and Aggregation [63.6870051909004]
新たな集計機能モジュール(STFAM)を用いた深層学習型ビデオマッチングフレームワークを提案する。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
私達のフレームワークは従来のビデオ マットおよび深いイメージのマットの方法よりかなり優秀です。
論文 参考訳(メタデータ) (2021-04-22T17:42:08Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。