論文の概要: Spatial-Temporal Transformer for Video Snapshot Compressive Imaging
- arxiv url: http://arxiv.org/abs/2209.01578v1
- Date: Sun, 4 Sep 2022 09:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:55:51.274297
- Title: Spatial-Temporal Transformer for Video Snapshot Compressive Imaging
- Title(参考訳): 映像スナップショット圧縮イメージングのための時空間変圧器
- Authors: Lishun Wang, Miao Cao, Yong Zhong and Xin Yuan
- Abstract要約: ビデオスナップショットイメージング(SCI)は、複数のシーケンシャルなビデオフレームを単一の計測でキャプチャする。
本稿では,ビデオSCIにおける再構成アルゴリズム,すなわち圧縮された測定値から一連のビデオフレームを復元する手法について考察する。
- 参考スコア(独自算出の注目度): 8.041612107945188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video snapshot compressive imaging (SCI) captures multiple sequential video
frames by a single measurement using the idea of computational imaging. The
underlying principle is to modulate high-speed frames through different masks
and these modulated frames are summed to a single measurement captured by a
low-speed 2D sensor (dubbed optical encoder); following this, algorithms are
employed to reconstruct the desired high-speed frames (dubbed software decoder)
if needed. In this paper, we consider the reconstruction algorithm in video
SCI, i.e., recovering a series of video frames from a compressed measurement.
Specifically, we propose a Spatial-Temporal transFormer (STFormer) to exploit
the correlation in both spatial and temporal domains. STFormer network is
composed of a token generation block, a video reconstruction block, and these
two blocks are connected by a series of STFormer blocks. Each STFormer block
consists of a spatial self-attention branch, a temporal self-attention branch
and the outputs of these two branches are integrated by a fusion network.
Extensive results on both simulated and real data demonstrate the
state-of-the-art performance of STFormer. The code and models are publicly
available at https://github.com/ucaswangls/STFormer.git
- Abstract(参考訳): ビデオスナップショット圧縮画像(SCI)は、複数の連続したビデオフレームを1つの計測でキャプチャする。
基本原理は、異なるマスクを通して高速フレームを変調することであり、これらの変調フレームは、低速2dセンサ(ダビング光エンコーダ)でキャプチャされた単一の測定値に要約され、必要に応じて所望の高速フレーム(ダビングソフトウェアデコーダ)を再構築するためにアルゴリズムが使用される。
本稿では,映像sciにおける再構成アルゴリズム,すなわち圧縮計測から一連の映像フレームを復元する手法について検討する。
具体的には,空間領域と時間領域の相関を利用した時空間変圧器(stformer)を提案する。
stformerネットワークはトークン生成ブロックとビデオ再構成ブロックで構成され、これら2つのブロックは一連のstformerブロックで接続される。
各STFormerブロックは、空間的自己注意枝と時間的自己注意枝とからなり、これら2つの枝の出力は融合ネットワークによって統合される。
シミュレーションデータと実データの両方に関する広範な結果は、stformerの最先端のパフォーマンスを示している。
コードとモデルはhttps://github.com/ucaswangls/STFormer.gitで公開されている。
関連論文リスト
- Deep Optics for Video Snapshot Compressive Imaging [10.830072985735175]
ビデオ・スナップショット・イメージング(SCI)は、2D検出器の1枚のショットだけでビデオ・フレームのシーケンスをキャプチャすることを目的としている。
本稿では,マスクと再構成ネットワークを協調的に最適化する枠組みを提案する。
これは、現実世界のビデオSCIのマイルストーンだ、と私たちは信じている。
論文 参考訳(メタデータ) (2024-04-08T08:04:44Z) - EfficientSCI: Densely Connected Network with Space-time Factorization
for Large-scale Video Snapshot Compressive Imaging [6.8372546605486555]
圧縮率の高いUHDカラービデオは,PSNRが32dB以上である単一エンドツーエンドのディープラーニングモデルを用いて,スナップショット2次元計測から再構成可能であることを示す。
提案手法は,従来のSOTAアルゴリズムよりも性能が優れ,リアルタイム性能が向上した。
論文 参考訳(メタデータ) (2023-05-17T07:28:46Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Dual-view Snapshot Compressive Imaging via Optical Flow Aided Recurrent
Neural Network [14.796204921975733]
デュアルビュースナップショット圧縮イメージング(SCI)は、2つの視野(FoV)からのビデオを1つのスナップショットでキャプチャすることを目的としている。
既存のモデルベースの復号アルゴリズムでは個々のシーンを再構築することは困難である。
本稿では,2重ビデオSCIシステムのための光フロー支援型リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-11T14:24:44Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z) - W-Cell-Net: Multi-frame Interpolation of Cellular Microscopy Videos [1.7205106391379026]
蛍光顕微鏡タイムラプス映画の時間分解能を高めるため,近年のディープ・ビデオ・コンボリューションを応用した。
我々の知る限り、2つの連続した顕微鏡画像間のフレームを生成するために、CNN(Conal Neural Networks)を用いた以前の研究はない。
論文 参考訳(メタデータ) (2020-05-14T01:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。