論文の概要: Modulo Video Recovery via Selective Spatiotemporal Vision Transformer
- arxiv url: http://arxiv.org/abs/2511.07479v1
- Date: Wed, 12 Nov 2025 01:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.353037
- Title: Modulo Video Recovery via Selective Spatiotemporal Vision Transformer
- Title(参考訳): 選択時空間視覚変換器によるモデュロ映像の再生
- Authors: Tianyu Geng, Feng Ji, Wee Peng Tay,
- Abstract要約: モジュロビデオ再構成のための第1の深層学習フレームワークを提案する。
SSViTは、効率を改善し、最も重要な領域に集中するためにトークン選択戦略を採用している。
実験により、SSViTは8ビットの折りたたみビデオから高品質な再構成を生成することが確認された。
- 参考スコア(独自算出の注目度): 33.84336417728034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional image sensors have limited dynamic range, causing saturation in high-dynamic-range (HDR) scenes. Modulo cameras address this by folding incident irradiance into a bounded range, yet require specialized unwrapping algorithms to reconstruct the underlying signal. Unlike HDR recovery, which extends dynamic range from conventional sampling, modulo recovery restores actual values from folded samples. Despite being introduced over a decade ago, progress in modulo image recovery has been slow, especially in the use of modern deep learning techniques. In this work, we demonstrate that standard HDR methods are unsuitable for modulo recovery. Transformers, however, can capture global dependencies and spatial-temporal relationships crucial for resolving folded video frames. Still, adapting existing Transformer architectures for modulo recovery demands novel techniques. To this end, we present Selective Spatiotemporal Vision Transformer (SSViT), the first deep learning framework for modulo video reconstruction. SSViT employs a token selection strategy to improve efficiency and concentrate on the most critical regions. Experiments confirm that SSViT produces high-quality reconstructions from 8-bit folded videos and achieves state-of-the-art performance in modulo video recovery.
- Abstract(参考訳): 従来の画像センサはダイナミックレンジが限られており、高ダイナミックレンジ(HDR)シーンで飽和を引き起こす。
モデュロカメラは、入射光を有界範囲に折り畳むことでこの問題に対処するが、基礎となる信号の再構成には特殊なアンラッピングアルゴリズムを必要とする。
従来のサンプリングから動的範囲を拡張するHDRリカバリとは異なり、Moduloリカバリは折りたたみサンプルから実際の値を復元する。
10年以上前に導入されたにもかかわらず、モジュロ画像の回復の進行は遅く、特に現代のディープラーニング技術の使用が遅れている。
本研究では,標準HDR法がモジュロ回復には適さないことを示す。
しかしトランスフォーマーは、折りたたみビデオフレームの解決に不可欠なグローバルな依存関係と空間的時間的関係をキャプチャできる。
それでも、Moduloリカバリに既存のTransformerアーキテクチャを適用するには、新しい技術が必要である。
この目的のために,ビデオ再構成のための最初のディープラーニングフレームワークであるSelective Spatiotemporal Vision Transformer (SSViT)を提案する。
SSViTは、効率を改善し、最も重要な領域に集中するためにトークン選択戦略を採用している。
実験により、SSViTは8ビットの折り畳みビデオから高品質な再構成を行い、モジュロビデオ再生における最先端のパフォーマンスを達成することが確認された。
関連論文リスト
- LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration [3.2944592608677614]
本稿では,VCMで符号化された先行画像を用いた高精細ビデオ再生のための,最初のゼロショット・プラグ・アンド・プレイ逆解器であるLVTINOを提案する。
我々の条件付け機構は、自動微分の必要性を回避し、少数のニューラルファンクション評価で最先端のビデオ再構成品質を達成する。
論文 参考訳(メタデータ) (2025-10-01T18:10:08Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space [46.43409853027655]
拡散モデルは、現実的な画像の詳細を生成する大きな可能性を示している。
これらのモデルをビデオ超解像(VSR)に適応させることは、その性質と時間的モデリングの欠如により、依然として困難である。
我々は,超現実的で時間的に整合したVSRを,効率的なワンステップ拡散空間で実現するための新しいフレームワークであるUltraVSRを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:19:27Z) - Reversing the Damage: A QP-Aware Transformer-Diffusion Approach for 8K Video Restoration under Codec Compression [0.0]
DiQPは8Kビデオ品質を圧縮によって劣化させる新しいトランスフォーマー拡散モデルである。
我々のアーキテクチャは、拡張されたウィンドウ機構で長距離依存関係をキャプチャするトランスフォーマーのパワーを組み合わせています。
我々のモデルは最先端の手法、特に4Kや8Kのような高精細度ビデオよりも優れています。
論文 参考訳(メタデータ) (2024-12-12T03:49:22Z) - LAN-HDR: Luminance-based Alignment Network for High Dynamic Range Video
Reconstruction [20.911738532410766]
本稿では,LDRフレームを特徴空間に整列させ,その特徴をHDRフレームにマージする,エンドツーエンドのHDRビデオ合成フレームワークを提案する。
トレーニングでは、フレーム再構築損失に加えて時間的損失を採用し、時間的一貫性を高め、フリッカリングを低減する。
論文 参考訳(メタデータ) (2023-08-22T01:43:00Z) - SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。
提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。
実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文 参考訳(メタデータ) (2023-08-16T09:50:35Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation
and Alignment [90.81396836308085]
我々は,伝播とアライメントの強化による再生フレームワークの強化により,映像情報をより効果的に活用できることを示す。
我々のモデルである BasicVSR++ は PSNR で BasicVSR を 0.82 dB で上回っている。
BasicVSR++は圧縮ビデオ強化などの他のビデオ復元タスクによく一般化される。
論文 参考訳(メタデータ) (2021-04-27T17:58:31Z) - Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video
Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。
入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:23Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。