論文の概要: DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba
- arxiv url: http://arxiv.org/abs/2408.10679v2
- Date: Mon, 18 Nov 2024 07:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:11.609109
- Title: DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba
- Title(参考訳): DemMamba: 周波数アシスト型時空間マンバによるアライメントなし生動画のデモ
- Authors: Shuning Xu, Xina Liu, Binbin Song, Xiangyu Chen, Qiubo Chen, Jiantao Zhou,
- Abstract要約: 2つの同様の反復パターンの干渉によるモアレパターンは、画面上の画像やビデオのキャプチャ中に頻繁に観察される。
本稿では,周波数アシスト型マンバを用いたアライメントレス生ビデオ復調ネットワークを提案する。
提案するDemMambaはPSNRで1.3dBの最先端手法を超越し,良好な視覚体験を提供する。
- 参考スコア(独自算出の注目度): 18.06907326360215
- License:
- Abstract: Moire patterns, resulting from the interference of two similar repetitive patterns, are frequently observed during the capture of images or videos on screens. These patterns vary in color, shape, and location across video frames, posing challenges in extracting information from adjacent frames and preserving temporal consistency throughout the restoration process. Existing deep learning methods often depend on well-designed alignment modules, such as optical flow estimation, deformable convolution, and cross-frame self-attention layers, incurring high computational costs. Recent studies indicate that utilizing raw data as input can significantly improve the effectiveness of video demoireing by providing the pristine degradation information and more detailed content. However, previous works fail to design both efficient and effective raw video demoireing methods that can maintain temporal consistency and prevent degradation of color and spatial details. This paper introduces a novel alignment-free raw video demoireing network with frequency-assisted spatio-temporal Mamba (DemMamba). It features sequentially arranged Spatial Mamba Blocks (SMB) and Temporal Mamba Blocks (TMB) to effectively model the inter- and intra-relationships in raw videos affected by moire patterns. An Adaptive Frequency Block (AFB) within the SMB facilitates demoireing in the frequency domain, while a Channel Attention Block (CAB) in the TMB enhances the temporal information interactions by leveraging inter-channel relationships among features. Extensive experiments demonstrate that our proposed DemMamba surpasses state-of-the-art methods by 1.3 dB in PSNR, and also provides a satisfactory visual experience.
- Abstract(参考訳): 2つの同様の反復パターンの干渉によるモアレパターンは、画面上の画像やビデオのキャプチャ中に頻繁に観察される。
これらのパターンは、ビデオフレーム間の色、形状、位置によって異なり、隣接するフレームから情報を抽出し、復元プロセスを通して時間的一貫性を保つことの難しさを浮き彫りにしている。
既存のディープラーニング手法は、光学フロー推定、変形可能な畳み込み、フレーム間自己アテンション層など、よく設計されたアライメントモジュールに依存しており、高い計算コストがかかる。
近年の研究では、プリスタン劣化情報とより詳細なコンテンツを提供することにより、生データを入力として活用することで、映像復調の有効性を著しく向上させることができることが示されている。
しかし、従来の研究では、時間的一貫性を保ち、色や空間的詳細の劣化を防止できる、効率的かつ効果的な生ビデオ復号法の両方を設計できなかった。
本稿では,周波数アシスト型時空間マンバ(DemMamba)を用いたアライメントレス生ビデオ復調ネットワークを提案する。
連続的に配置された空間マンバブロック(SMB)とテンポラルマンバブロック(TMB)を特徴とし、モアレパターンに影響された生ビデオの相互関係と相互関係を効果的にモデル化する。
SMB内の適応周波数ブロック(AFB)は周波数領域の復調を容易にする一方、TMB内のチャネルアテンションブロック(CAB)は特徴間のチャネル間関係を利用して時間情報相互作用を強化する。
広汎な実験により,提案手法がPSNRの1.3dBを超えることが確認された。
関連論文リスト
- MambaSCI: Efficient Mamba-UNet for Quad-Bayer Patterned Video Snapshot Compressive Imaging [23.69262715870974]
既存のカラービデオSCI再構成アルゴリズムは、従来のベイアパターンに基づいて設計されている。
MambaSCIは計算コストとメモリコストの削減で最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-10-18T07:02:57Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - SPMamba: State-space model is all you need in speech separation [20.168153319805665]
CNNベースの音声分離モデルは、局所的な受容的場制限に直面し、長期間の依存関係を効果的にキャプチャできない。
本稿では,SPMambaという音声分離手法を提案する。
このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - SSM Meets Video Diffusion Models: Efficient Long-Term Video Generation with Structured State Spaces [20.23192934634197]
映像生成のための最近の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。
この制限は拡散モデルを用いてより長いビデオシーケンスを生成する際に大きな課題をもたらす。
本研究では,状態空間モデル(SSM)を時間的特徴抽出器として活用することを提案する。
論文 参考訳(メタデータ) (2024-03-12T14:53:56Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Temporal Modulation Network for Controllable Space-Time Video
Super-Resolution [66.06549492893947]
宇宙時間のビデオ超解像度は、低解像度と低フレームレートのビデオの空間的および時間的解像度を高めることを目指しています。
変形性畳み込み法は、有望なSTVSR性能を達成したが、トレーニング段階で事前に定義された中間フレームのみを推測することができた。
本稿では,任意の中間フレームを高精度な高分解能再構成で補間する時間変調ネットワーク(tmnet)を提案する。
論文 参考訳(メタデータ) (2021-04-21T17:10:53Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。