Fugu-MT 論文翻訳(概要): EfficientSCI: Densely Connected Network with Space-time Factorization for Large-scale Video Snapshot Compressive Imaging

論文の概要: EfficientSCI: Densely Connected Network with Space-time Factorization for Large-scale Video Snapshot Compressive Imaging

arxiv url: http://arxiv.org/abs/2305.10006v1
Date: Wed, 17 May 2023 07:28:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-18 17:04:08.592323
Title: EfficientSCI: Densely Connected Network with Space-time Factorization for Large-scale Video Snapshot Compressive Imaging
Title（参考訳）: EfficientSCI:大規模ビデオスナップショット圧縮画像の時空間分解による高結合ネットワーク
Authors: Lishun Wang, Miao Cao, and Xin Yuan
Abstract要約: ビデオスナップショットイメージング(SCI)は、2次元検出器を用いて1回の露光時に連続するビデオフレームをキャプチャする。近年の深層学習に基づくSOTA (State-of-the-art) 再構成アルゴリズムは,多くのタスクにおいて良好な結果を得た。しかし、過剰なモデルの複雑さとGPUメモリの制限のために、問題に直面している。我々は,bf Em高密度接続と時空間分解機構を用いて,ビデオSCIのためのbfem効率的なネットワークを構築した。
参考スコア（独自算出の注目度）: 6.8372546605486555
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video snapshot compressive imaging (SCI) uses a two-dimensional detector to capture consecutive video frames during a single exposure time. Following this, an efficient reconstruction algorithm needs to be designed to reconstruct the desired video frames. Although recent deep learning-based state-of-the-art (SOTA) reconstruction algorithms have achieved good results in most tasks, they still face the following challenges due to excessive model complexity and GPU memory limitations: 1) these models need high computational cost, and 2) they are usually unable to reconstruct large-scale video frames at high compression ratios. To address these issues, we develop an {\bf{\em efficient network}} for video SCI by using {\bf {\em dense connections and space-time factorization mechanism}} within a single residual block, dubbed {\bf \emph{EfficientSCI}}. The EfficientSCI network can well establish spatial-temporal correlation by using {\bf {\em convolution in the spatial domain and Transformer in the temporal domain}}, respectively. We are the first time to show that an UHD color video with high compression ratio can be reconstructed from a snapshot 2D measurement using a single end-to-end deep learning model with PSNR above 32 dB. Extensive results on both simulation and real data show that our method significantly outperforms all previous SOTA algorithms with better real-time performance. The code is at \url{https://github.com/ucaswangls/EfficientSCI.git}.
Abstract（参考訳）: ビデオスナップショット圧縮イメージング(SCI)は、2次元検出器を用いて1回の露光時に連続するビデオフレームをキャプチャする。その後、所望のビデオフレームを再構築するために効率的な再構成アルゴリズムを設計する必要がある。最近のDeep Learning-based State-of-the-art(SOTA)再構成アルゴリズムは、ほとんどのタスクにおいて良い結果を得たが、過度のモデル複雑性とGPUメモリの制限により、依然として以下の課題に直面している。これらの問題に対処するために、ビデオsciの "bf{\em efficient network}} を単一の残留ブロック内の "bf {\em dense connections and space-time factorization mechanism}} を用いて開発し、これを "bf \emph{ efficientsci}}" と呼ぶ。 EfficientSCIネットワークは、それぞれ空間領域における {\bf {\em convolution と時間領域における Transformer を用いて、空間時間相関を確立することができる。圧縮率の高いUHDカラービデオは,PSNRが32dB以上である単一エンドツーエンドディープラーニングモデルを用いて,スナップショット2次元計測から再構成可能であることを示すのはこれが初めてである。シミュレーションと実データの両方の大規模な結果から,提案手法は従来のSOTAアルゴリズムよりも高い性能を示し,実時間性能が向上した。コードは \url{https://github.com/ucaswangls/EfficientSCI.git} にある。

関連論文リスト

SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Deep Optics for Video Snapshot Compressive Imaging [10.830072985735175]
ビデオ・スナップショット・イメージング(SCI)は、2D検出器の1枚のショットだけでビデオ・フレームのシーケンスをキャプチャすることを目的としている。本稿では,マスクと再構成ネットワークを協調的に最適化する枠組みを提案する。これは、現実世界のビデオSCIのマイルストーンだ、と私たちは信じている。
論文参考訳（メタデータ） (2024-04-08T08:04:44Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。 Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文参考訳（メタデータ） (2023-04-17T17:57:06Z)
ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文参考訳（メタデータ） (2023-03-23T17:58:05Z)
Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文参考訳（メタデータ） (2022-10-13T08:15:08Z)
Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis [40.249030338644225]
映像合成 (Vid2Vid) は, セマンティックマップのシーケンスから写真リアルな映像を生成することで, 顕著な成果を上げている。 Fast-Vid2Vidは20 FPSのリアルタイムパフォーマンスを実現し、1つのV100 GPUで約8倍の計算コストを節約する。
論文参考訳（メタデータ） (2022-07-11T17:57:57Z)
Dual-view Snapshot Compressive Imaging via Optical Flow Aided Recurrent Neural Network [14.796204921975733]
デュアルビュースナップショット圧縮イメージング(SCI)は、2つの視野(FoV)からのビデオを1つのスナップショットでキャプチャすることを目的としている。既存のモデルベースの復号アルゴリズムでは個々のシーンを再構築することは困難である。本稿では,2重ビデオSCIシステムのための光フロー支援型リカレントニューラルネットワークを提案する。
論文参考訳（メタデータ） (2021-09-11T14:24:44Z)
Memory-Efficient Network for Large-scale Video Compressive Sensing [21.040260603729227]
ビデオスナップショットイメージング(SCI)は、2D検出器を用いて1枚のショットで一連のビデオフレームをキャプチャする。本稿では,マルチグループ可逆3次元畳み込みニューラルネットワークに基づく大規模映像SCIのためのメモリ効率の良いネットワークを開発する。
論文参考訳（メタデータ） (2021-03-04T15:14:58Z)
Plug-and-Play Algorithms for Video Snapshot Compressive Imaging [41.818167109996885]
低速2dセンサ(検出器)を用いたスナップショット映像撮影(sci)の再構成問題を考える。 SCIの基本原則は、異なるマスクを持つフレームを変調し、エンコードされたフレームをセンサーのスナップショットに統合することです。私たちの日常生活で大規模な問題(HDまたはUHDビデオ)にSCIを適用することは、まだ1つのボトルネックが再構築アルゴリズムにあります。
論文参考訳（メタデータ） (2021-01-13T00:51:49Z)
Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。時間合成と空間超解像はこの課題に関係している。 LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文参考訳（メタデータ） (2020-02-26T16:59:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。