論文の概要: MoCHA-former: Moiré-Conditioned Hybrid Adaptive Transformer for Video Demoiréing
- arxiv url: http://arxiv.org/abs/2508.14423v1
- Date: Wed, 20 Aug 2025 04:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.345484
- Title: MoCHA-former: Moiré-Conditioned Hybrid Adaptive Transformer for Video Demoiréing
- Title(参考訳): MoCHA-former:Moiré-Conditioned Hybrid Adaptive Transformer for Video Demoiréing
- Authors: Jeahun Sung, Changhyun Roh, Chanho Eom, Jihyong Oh,
- Abstract要約: カメラのカラーフィルタアレイ(CFA)とディスプレイのサブピクセルの間の周波数エイリアスにより、モワールパターンが引き起こされ、撮影された写真やビデオが著しく劣化する。
MoCHA-formerは、Decoupled Moir'e Adaptive Demoir'eing (DMAD)とSpatio-Temporal Adaptive Demoir'eing (STAD)の2つの主要なコンポーネントから構成される。
モワールの特徴を質的,定量的に分析し,RAWドメインとsRGBドメインをカバーする2つのビデオデータセットを用いて評価した。
- 参考スコア(独自算出の注目度): 9.18715978278858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in portable imaging have made camera-based screen capture ubiquitous. Unfortunately, frequency aliasing between the camera's color filter array (CFA) and the display's sub-pixels induces moir\'e patterns that severely degrade captured photos and videos. Although various demoir\'eing models have been proposed to remove such moir\'e patterns, these approaches still suffer from several limitations: (i) spatially varying artifact strength within a frame, (ii) large-scale and globally spreading structures, (iii) channel-dependent statistics and (iv) rapid temporal fluctuations across frames. We address these issues with the Moir\'e Conditioned Hybrid Adaptive Transformer (MoCHA-former), which comprises two key components: Decoupled Moir\'e Adaptive Demoir\'eing (DMAD) and Spatio-Temporal Adaptive Demoir\'eing (STAD). DMAD separates moir\'e and content via a Moir\'e Decoupling Block (MDB) and a Detail Decoupling Block (DDB), then produces moir\'e-adaptive features using a Moir\'e Conditioning Block (MCB) for targeted restoration. STAD introduces a Spatial Fusion Block (SFB) with window attention to capture large-scale structures, and a Feature Channel Attention (FCA) to model channel dependence in RAW frames. To ensure temporal consistency, MoCHA-former performs implicit frame alignment without any explicit alignment module. We analyze moir\'e characteristics through qualitative and quantitative studies, and evaluate on two video datasets covering RAW and sRGB domains. MoCHA-former consistently surpasses prior methods across PSNR, SSIM, and LPIPS.
- Abstract(参考訳): ポータブルイメージングの最近の進歩は、カメラベースのスクリーンキャプチャをユビキタスにしている。
残念なことに、カメラのカラーフィルターアレイ(CFA)とディスプレイのサブピクセルの間の周波数エイリアスによって、撮影された写真や動画を著しく劣化させるモアレパターンが引き起こされる。
このような moir\'e パターンを取り除くために様々な demoir\'eing モデルが提案されているが、これらのアプローチにはいくつかの制限がある。
(i)フレーム内の空間的に異なるアーチファクト強度
(II)大規模・グローバルに広がる構造
(三)チャンネル依存統計及びチャンネル依存統計
(4)フレーム間の急激な時間変動。
この問題は、Moir\'e Conditioned Hybrid Adaptive Transformer (MoCHA-former) によって解決され、Decoupled Moir\'e Adaptive Demoir\'eing (DMAD) と Spatio-Temporal Adaptive Demoir\'eing (STAD) の2つの主要なコンポーネントから構成される。
DMAD は Moir\'e Decoupling Block (MDB) と Detail Decoupling Block (DDB) を介して moir\'e とコンテンツを分離し、ターゲットの復元のために Moir\'e Conditioning Block (MCB) を使用して moir\'e 適応機能を生成する。
STADは、大規模構造を捉えるために窓の注意を向けた空間融合ブロック(SFB)と、RAWフレーム内のチャネル依存をモデル化するための特徴チャネル注意(FCA)を導入している。
時間的一貫性を確保するため、MoCHA-formerは明示的なアライメントモジュールなしで暗黙のフレームアライメントを実行する。
質的および定量的研究によりモワール・イの特徴を解析し,RAWドメインとsRGBドメインをカバーする2つのビデオデータセットについて評価した。
MoCHA-formerはPSNR、SSIM、LPIPSにまたがる従来の手法を一貫して上回っている。
関連論文リスト
- Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - GaraMoSt: Parallel Multi-Granularity Motion and Structural Modeling for Efficient Multi-Frame Interpolation in DSA Images [35.42266460525047]
Digital Subtraction Angiography (DSA) 画像は複雑な血管構造と様々な動きを含んでいる。
自然シーンビデオフレーム補間法(VFI)を適用すると、動きのアーティファクト、構造的散逸、ぼやけが生じる。
MoSt-DSAはこれらの問題に初めて対処し、SOTAの結果を得た。
我々は,これらの問題に同じ計算時間スケールで対処するGalaMoStを提案する。
論文 参考訳(メタデータ) (2024-12-18T18:04:12Z) - Alignment-free Raw Video Demoireing [18.06907326360215]
ビデオの削除は、スクリーンコンテンツのキャプチャ中に発生する望ましくない干渉パターンを取り除くことを目的としている。
本稿では,周波数アシスト型時間的マンバ(DemMamba)を用いたアライメントフリー生ビデオ復調ネットワークを提案する。
PSNRでは、最先端の手法を1.6dB超え、良好な視覚体験を提供する。
論文 参考訳(メタデータ) (2024-08-20T09:31:03Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Burstormer: Burst Image Restoration and Enhancement Transformer [117.56199661345993]
シャッタープレスでは、現代のハンドヘルドカメラが高速に複数の画像をキャプチャし、それらをマージして単一の画像を生成する。
課題は、連続したイメージショットを適切に調整し、その補完的な情報をマージして高品質な出力を達成することである。
バーストラー(Burstormer)はバースト画像の復元と拡張のためのトランスフォーマーをベースとした新しいアーキテクチャである。
論文 参考訳(メタデータ) (2023-04-03T17:58:44Z) - Look Back and Forth: Video Super-Resolution with Explicit Temporal
Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。
超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文 参考訳(メタデータ) (2022-04-14T17:07:33Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video
Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。
入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。