Fugu-MT 論文翻訳(概要): MoCHA-former: Moiré-Conditioned Hybrid Adaptive Transformer for Video Demoiréing

論文の概要: MoCHA-former: Moiré-Conditioned Hybrid Adaptive Transformer for Video Demoiréing

arxiv url: http://arxiv.org/abs/2508.14423v3
Date: Sun, 24 Aug 2025 05:05:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-26 12:26:22.550721
Title: MoCHA-former: Moiré-Conditioned Hybrid Adaptive Transformer for Video Demoiréing
Title（参考訳）: MoCHA-former:Moiré-Conditioned Hybrid Adaptive Transformer for Video Demoiréing
Authors: Jeahun Sung, Changhyun Roh, Chanho Eom, Jihyong Oh,
Abstract要約: カメラのカラーフィルタアレイ(CFA)とディスプレイのサブピクセルの間の周波数エイリアスにより、モワールパターンが引き起こされ、撮影された写真やビデオが著しく劣化する。 MoCHA-formerは、Decoupled Moir'e Adaptive Demoir'eing (DMAD)とSpatio-Temporal Adaptive Demoir'eing (STAD)の2つの主要なコンポーネントから構成される。モワールの特徴を質的,定量的に分析し,RAWドメインとsRGBドメインをカバーする2つのビデオデータセットを用いて評価した。
参考スコア（独自算出の注目度）: 9.869634509510014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in portable imaging have made camera-based screen capture ubiquitous. Unfortunately, frequency aliasing between the camera's color filter array (CFA) and the display's sub-pixels induces moir\'e patterns that severely degrade captured photos and videos. Although various demoir\'eing models have been proposed to remove such moir\'e patterns, these approaches still suffer from several limitations: (i) spatially varying artifact strength within a frame, (ii) large-scale and globally spreading structures, (iii) channel-dependent statistics and (iv) rapid temporal fluctuations across frames. We address these issues with the Moir\'e Conditioned Hybrid Adaptive Transformer (MoCHA-former), which comprises two key components: Decoupled Moir\'e Adaptive Demoir\'eing (DMAD) and Spatio-Temporal Adaptive Demoir\'eing (STAD). DMAD separates moir\'e and content via a Moir\'e Decoupling Block (MDB) and a Detail Decoupling Block (DDB), then produces moir\'e-adaptive features using a Moir\'e Conditioning Block (MCB) for targeted restoration. STAD introduces a Spatial Fusion Block (SFB) with window attention to capture large-scale structures, and a Feature Channel Attention (FCA) to model channel dependence in RAW frames. To ensure temporal consistency, MoCHA-former performs implicit frame alignment without any explicit alignment module. We analyze moir\'e characteristics through qualitative and quantitative studies, and evaluate on two video datasets covering RAW and sRGB domains. MoCHA-former consistently surpasses prior methods across PSNR, SSIM, and LPIPS.
Abstract（参考訳）: ポータブルイメージングの最近の進歩は、カメラベースのスクリーンキャプチャをユビキタスにしている。残念なことに、カメラのカラーフィルターアレイ(CFA)とディスプレイのサブピクセルの間の周波数エイリアスによって、撮影された写真や動画を著しく劣化させるモアレパターンが引き起こされる。このような moir\'e パターンを取り除くために様々な demoir\'eing モデルが提案されているが、これらのアプローチにはいくつかの制限がある。 (i)フレーム内の空間的に異なるアーチファクト強度 (II)大規模・グローバルに広がる構造 (三)チャンネル依存統計及びチャンネル依存統計 (4)フレーム間の急激な時間変動。この問題は、Moir\'e Conditioned Hybrid Adaptive Transformer (MoCHA-former) によって解決され、Decoupled Moir\'e Adaptive Demoir\'eing (DMAD) と Spatio-Temporal Adaptive Demoir\'eing (STAD) の2つの主要なコンポーネントから構成される。 DMAD は Moir\'e Decoupling Block (MDB) と Detail Decoupling Block (DDB) を介して moir\'e とコンテンツを分離し、ターゲットの復元のために Moir\'e Conditioning Block (MCB) を使用して moir\'e 適応機能を生成する。 STADは、大規模構造を捉えるために窓の注意を向けた空間融合ブロック(SFB)と、RAWフレーム内のチャネル依存をモデル化するための特徴チャネル注意(FCA)を導入している。時間的一貫性を確保するため、MoCHA-formerは明示的なアライメントモジュールなしで暗黙のフレームアライメントを実行する。質的および定量的研究によりモワール・イの特徴を解析し,RAWドメインとsRGBドメインをカバーする2つのビデオデータセットについて評価した。 MoCHA-formerはPSNR、SSIM、LPIPSにまたがる従来の手法を一貫して上回っている。

関連論文リスト

DCDM: Divide-and-Conquer Diffusion Models for Consistency-Preserving Video Generation [77.89090846233906]
我々はDivide-and-Conquer Diffusion Model (DCDM)と呼ばれるシステムレベルのフレームワークを提案する。 DCDMは、統合されたビデオ生成バックボーンを共有しながら、ビデオ一貫性モデリングを3つの専用コンポーネントに分解する。我々は,AAAI'26におけるCVMコンペティションのテストセットにおけるフレームワークの検証を行い,提案手法がこれらの課題に効果的に対処できることを実証した。
論文参考訳（メタデータ） (2026-02-14T07:02:36Z)
Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。 LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-01-21T12:58:52Z)
NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation [88.09231548061295]
相保存拡散-PDは拡散過程のモデル非依存的な再構成である。 -PDは大きさをランダム化しながら入力フェーズを保存し、アーキテクチャ変更なしに構造整合生成を可能にする。 -PDは推論時間を追加せず、画像やビデオの拡散モデルと互換性がある。
論文参考訳（メタデータ） (2025-12-04T18:59:18Z)
CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。 CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文参考訳（メタデータ） (2025-11-26T07:27:11Z)
Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文参考訳（メタデータ） (2025-06-01T13:28:04Z)
GaraMoSt: Parallel Multi-Granularity Motion and Structural Modeling for Efficient Multi-Frame Interpolation in DSA Images [35.42266460525047]
Digital Subtraction Angiography (DSA) 画像は複雑な血管構造と様々な動きを含んでいる。自然シーンビデオフレーム補間法(VFI)を適用すると、動きのアーティファクト、構造的散逸、ぼやけが生じる。 MoSt-DSAはこれらの問題に初めて対処し、SOTAの結果を得た。我々は,これらの問題に同じ計算時間スケールで対処するGalaMoStを提案する。
論文参考訳（メタデータ） (2024-12-18T18:04:12Z)
Alignment-free Raw Video Demoireing [18.06907326360215]
ビデオの削除は、スクリーンコンテンツのキャプチャ中に発生する望ましくない干渉パターンを取り除くことを目的としている。本稿では,周波数アシスト型時間的マンバ(DemMamba)を用いたアライメントフリー生ビデオ復調ネットワークを提案する。 PSNRでは、最先端の手法を1.6dB超え、良好な視覚体験を提供する。
論文参考訳（メタデータ） (2024-08-20T09:31:03Z)
IFT: Image Fusion Transformer for Ghost-free High Dynamic Range Imaging [26.127764855477782]
マルチフレームハイダイナミックレンジ(HDR)画像は、コンテンツ補完的ではあるが空間的に不一致な低ダイナミックレンジ(LDR)画像から、ゴーストフリー画像の写実的詳細を再構成することを目的としている。既存のHDRアルゴリズムは、ダイナミックなシーンで大きな動きを持つLDRフレーム間の長距離依存関係をキャプチャできないため、ゴーストアーティファクトを生成する傾向にある。我々は,高速グローバルパッチ探索(FGPS)モジュールと,ゴーストフリーHDRイメージングのためのセルフクロスフュージョンモジュール(SCF)を併用した新しい画像融合トランスフォーマ(IFT)を提案する。
論文参考訳（メタデータ） (2023-09-26T15:38:52Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
Burstormer: Burst Image Restoration and Enhancement Transformer [117.56199661345993]
シャッタープレスでは、現代のハンドヘルドカメラが高速に複数の画像をキャプチャし、それらをマージして単一の画像を生成する。課題は、連続したイメージショットを適切に調整し、その補完的な情報をマージして高品質な出力を達成することである。バーストラー(Burstormer)はバースト画像の復元と拡張のためのトランスフォーマーをベースとした新しいアーキテクチャである。
論文参考訳（メタデータ） (2023-04-03T17:58:44Z)
Look Back and Forth: Video Super-Resolution with Explicit Temporal Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文参考訳（メタデータ） (2022-04-14T17:07:33Z)
Implicit Motion-Compensated Network for Unsupervised Video Object Segmentation [25.41427065435164]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。本稿では,隣接するフレームから特徴レベルにおける現在のフレームへの一致した動き情報と相補的キュー(textiti.e.$, appearance and motion)を組み合わせた暗黙的動き補償ネットワーク(IMCNet)を提案する。
論文参考訳（メタデータ） (2022-04-06T13:03:59Z)
Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。 FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文参考訳（メタデータ） (2022-01-06T02:05:32Z)
Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文参考訳（メタデータ） (2021-04-15T17:59:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。