論文の概要: Alignment-free Raw Video Demoireing
- arxiv url: http://arxiv.org/abs/2408.10679v3
- Date: Sun, 10 Aug 2025 15:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:50.878453
- Title: Alignment-free Raw Video Demoireing
- Title(参考訳): アライメントフリーの生ビデオデモ
- Authors: Shuning Xu, Xina Liu, Binbin Song, Xiangyu Chen, Qiubo Chen, Jiantao Zhou,
- Abstract要約: ビデオの削除は、スクリーンコンテンツのキャプチャ中に発生する望ましくない干渉パターンを取り除くことを目的としている。
本稿では,周波数アシスト型時間的マンバ(DemMamba)を用いたアライメントフリー生ビデオ復調ネットワークを提案する。
PSNRでは、最先端の手法を1.6dB超え、良好な視覚体験を提供する。
- 参考スコア(独自算出の注目度): 18.06907326360215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video demoireing aims to remove undesirable interference patterns that arise during the capture of screen content, restoring artifact-free frames while maintaining temporal consistency. Existing video demoireing methods typically utilize carefully designed alignment modules to estimate inter-frame motion for leveraging temporal information; however, these modules are often complex and computationally demanding. Meanwhile, recent works indicate that using raw data as input significantly enhances demoireing performance. Building on this insight, this paper introduces a novel alignment-free raw video demoireing network with frequency-assisted spatio-temporal Mamba (DemMamba). It incorporates sequentially arranged Spatial Mamba Blocks (SMB) and Temporal Mamba Blocks (TMB) to effectively model the inter- and intra-relationships in raw video demoireing. The SMB employs a multi-directional scanning mechanism coupled with a learnable frequency compressor to effectively differentiate interference patterns across various orientations and frequencies, resulting in reduced artifacts, sharper edges, and faithful texture reconstruction. Concurrently, the TMB enhances temporal consistency by performing bidirectional scanning across the temporal sequences and integrating channel attention techniques, facilitating improved temporal information fusion. Extensive experiments demonstrate that DemMamba surpasses state-of-the-art methods by 1.6 dB in PSNR, and also delivers a satisfactory visual experience.
- Abstract(参考訳): ビデオの削除は、スクリーンコンテンツのキャプチャ中に発生する望ましくない干渉パターンを排除し、時間的一貫性を維持しながら、アーティファクトのないフレームを復元することを目的としている。
既存のビデオ復号法では、時間的情報を活用するためにフレーム間の動きを推定するために、慎重に設計されたアライメントモジュールを利用することが多いが、これらのモジュールは複雑で計算的に要求されることが多い。
一方,近年の研究では,生データを入力として使用することで,復調性能が著しく向上している。
この知見に基づいて,周波数アシスト型時空間マンバ(DemMamba)を用いたアライメントレス生ビデオ復調ネットワークを提案する。
SMB(Spatial Mamba Blocks)とTMB(Temporal Mamba Blocks)を連続的に配置し、生のビデオ復調における相互関係と相互関係を効果的にモデル化する。
SMBは、学習可能な周波数圧縮機と結合した多方向走査機構を用いて、様々な方向と周波数の干渉パターンを効果的に区別し、成果物、よりシャープなエッジ、忠実なテクスチャ再構築をもたらす。
同時に、TMBは、時間的シーケンスを双方向に走査し、チャネルアテンション技術を統合することにより、時間的情報融合を改善することで、時間的一貫性を高める。
大規模な実験により、DemMambaはPSNRにおける最先端の手法を1.6dB超え、良好な視覚体験を提供することが示された。
関連論文リスト
- Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - VSRM: A Robust Mamba-Based Framework for Video Super-Resolution [1.8506868409351092]
ビデオの超高解像度化は、低レベルの視覚タスクにおいて依然として大きな課題である。
本研究では,ビデオ中の長いシーケンスを処理するための新しいフレームワークであるVSRMを提案する。
VSRMは様々なベンチマークで最先端の結果を達成し、将来の研究の基盤として確立している。
論文 参考訳(メタデータ) (2025-06-28T05:51:42Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - MD-BERT: Action Recognition in Dark Videos via Dynamic Multi-Stream Fusion and Temporal Modeling [4.736059095502584]
本稿では,ガンマ補正やヒストグラムなどの補完的な前処理技術を生の暗黒フレームと組み合わせた新しいマルチストリーム手法を提案する。
ARID V1.0とARID1.5のダークビデオデータセットに関する大規模な実験は、MD-BERTが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-02-06T02:26:47Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Deep Video Matting via Spatio-Temporal Alignment and Aggregation [63.6870051909004]
新たな集計機能モジュール(STFAM)を用いた深層学習型ビデオマッチングフレームワークを提案する。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
私達のフレームワークは従来のビデオ マットおよび深いイメージのマットの方法よりかなり優秀です。
論文 参考訳(メタデータ) (2021-04-22T17:42:08Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。