論文の概要: DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba
- arxiv url: http://arxiv.org/abs/2408.10679v1
- Date: Tue, 20 Aug 2024 09:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:24:42.788682
- Title: DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba
- Title(参考訳): DemMamba: 周波数アシスト型時空間マンバによるアライメントなし生動画のデモ
- Authors: Shuning Xu, Xina Liu, Binbin Song, Xiangyu Chen, Qiubo Chen, Jiantao Zhou,
- Abstract要約: 周波数アシスト時間型マンバ(DemMamba)を用いたアライメントレスRawビデオ復調ネットワークを提案する。
提案したMoiMambaは1.3dBの最先端アプローチを超越し、優れた視覚体験を提供する。
- 参考スコア(独自算出の注目度): 18.06907326360215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moire patterns arise when two similar repetitive patterns interfere, a phenomenon frequently observed during the capture of images or videos on screens. The color, shape, and location of moire patterns may differ across video frames, posing a challenge in learning information from adjacent frames and preserving temporal consistency. Previous video demoireing methods heavily rely on well-designed alignment modules, resulting in substantial computational burdens. Recently, Mamba, an improved version of the State Space Model (SSM), has demonstrated significant potential for modeling long-range dependencies with linear complexity, enabling efficient temporal modeling in video demoireing without requiring a specific alignment module. In this paper, we propose a novel alignment-free Raw video demoireing network with frequency-assisted spatio-temporal Mamba (DemMamba). The Spatial Mamba Block (SMB) and Temporal Mamba Block (TMB) are sequentially arranged to facilitate effective intra- and inter-relationship modeling in Raw videos with moire patterns. Within SMB, an Adaptive Frequency Block (AFB) is introduced to aid demoireing in the frequency domain. For TMB, a Channel Attention Block (CAB) is embedded to further enhance temporal information interactions by exploiting the inter-channel relationships among features. Extensive experiments demonstrate that our proposed DemMamba surpasses state-of-the-art approaches by 1.3 dB and delivers a superior visual experience.
- Abstract(参考訳): モアレパターンは、2つの同様の反復パターンが干渉し、画面上の画像やビデオのキャプチャ中によく見られる現象である。
モアレパターンの色、形状、位置はビデオフレームによって異なり、隣接するフレームから情報を学び、時間的一貫性を保つことに挑戦する。
以前のビデオ復号法は、よく設計されたアライメントモジュールに大きく依存しており、かなりの計算負荷をもたらしている。
最近、ステートスペースモデル(SSM)の改良版であるMambaは、線形複雑度で長距離依存をモデル化する大きな可能性を示しており、特定のアライメントモジュールを必要とせずに、ビデオデプライアにおける効率的な時間的モデリングを可能にしている。
本稿では,周波数アシスト型時空間マンバ(DemMamba)を用いたアライメントフリーなRawビデオ復調ネットワークを提案する。
空間マンバブロック (SMB) とテンポラルマンバブロック (TMB) は、モーアパターンの生ビデオにおける効果的な相互関係モデリングを容易にするために順次配置される。
SMB内では、周波数領域の復調を支援するために、適応周波数ブロック(AFB)が導入される。
TMBでは、チャネル間関係を利用して、時間的情報相互作用を強化するために、チャネル注意ブロック(CAB)が組み込まれている。
大規模な実験により、提案したDemMambaは1.3dBの最先端のアプローチを超越し、優れた視覚体験を提供することが示された。
関連論文リスト
- Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Deep Video Matting via Spatio-Temporal Alignment and Aggregation [63.6870051909004]
新たな集計機能モジュール(STFAM)を用いた深層学習型ビデオマッチングフレームワークを提案する。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
私達のフレームワークは従来のビデオ マットおよび深いイメージのマットの方法よりかなり優秀です。
論文 参考訳(メタデータ) (2021-04-22T17:42:08Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。