論文の概要: CMS-LSTM: Context-Embedding and Multi-Scale Spatiotemporal-Expression
LSTM for Video Prediction
- arxiv url: http://arxiv.org/abs/2102.03586v1
- Date: Sat, 6 Feb 2021 14:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:42:43.153042
- Title: CMS-LSTM: Context-Embedding and Multi-Scale Spatiotemporal-Expression
LSTM for Video Prediction
- Title(参考訳): CMS-LSTM:ビデオ予測のためのコンテキスト埋め込みとマルチスケール時空間表現LSTM
- Authors: Zenghao Chai, Chun Yuan, Zhihui Lin, Yunpeng Bai
- Abstract要約: 我々は,CMS-LSTMを用いてコンテキスト相関とマルチスケール時流を抽出する。
新たに導入されたブロックは、他の時間モデル(例えば、PredRNN、SACon-vLSTM)にもビデオ予測のための代表的特徴を提供する。
パラメータを減らして、MotionExpressionとTaxiのメトリクスに関する最先端の結果に到達します。
- 参考スコア(独自算出の注目度): 19.60644766914721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting variation and spatiotemporal features via limited frames remains
as an unsolved and challenging problem in video prediction. Inherent
uncertainty among consecutive frames exacerbates the difficulty in long-term
prediction. To tackle the problem, we focus on capturing context correlations
and multi-scale spatiotemporal flows, then propose CMS-LSTM by integrating two
effective and lightweight blocks, namely Context-Embedding (CE) and
Spatiotemporal-Expression (SE) block, into ConvLSTM backbone. CE block is
designed for abundant context interactions, while SE block focuses on
multi-scale spatiotemporal expression in hidden states. The newly introduced
blocks also facilitate other spatiotemporal models (e.g., PredRNN, SA-ConvLSTM)
to produce representative implicit features for video prediction. Qualitative
and quantitative experiments demonstrate the effectiveness and flexibility of
our proposed method. We use fewer parameters to reach markedly state-of-the-art
results on Moving MNIST and TaxiBJ datasets in numbers of metrics. All source
code is available at https://github.com/czh-98/CMS-LSTM.
- Abstract(参考訳): 制限フレームによる変動や時空間の特徴の抽出は、ビデオ予測において未解決かつ困難な問題として残されている。
連続フレーム間の因果不確実性は、長期予測の困難を悪化させる。
この問題に対処するために,コンテクスト相関とマルチスケール時空間流の抽出に焦点をあて,CMS-LSTMを2つの有効かつ軽量なブロックであるCE(Context-Embedding)とSE(Spatiotemporal-Expression)ブロックをConvLSTMバックボーンに統合して提案する。
CEブロックは豊富なコンテキスト相互作用のために設計されており、SEブロックは隠れ状態におけるマルチスケールの時空間表現に焦点を当てている。
新たに導入されたブロックは、他の時空間モデル(PredRNN、SA-ConvLSTMなど)でもビデオ予測のための暗黙的特徴を生成するのに役立つ。
定性的かつ定量的な実験により,提案手法の有効性と柔軟性が示された。
我々は、MNISTとTaxiBJデータセットをメトリクス数で動かせるように、パラメータを減らし、最先端の結果に到達します。
すべてのソースコードはhttps://github.com/czh-98/CMS-LSTMで入手できる。
関連論文リスト
- Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting [26.141054975797868]
時系列予測(TSF)のための新しい適応型マルチスケール分解(AMD)フレームワークを提案する。
我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを活用する。
提案手法は,時間依存性とチャネル依存性の両方を効果的にモデル化し,マルチスケールデータ統合を改良するために自己相関を利用する。
論文 参考訳(メタデータ) (2024-06-06T05:27:33Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Graph-Aware Contrasting for Multivariate Time-Series Classification [50.84488941336865]
既存のコントラスト学習手法は主に、時間的拡張とコントラスト技術による時間的一貫性を達成することに焦点を当てている。
MTSデータ間の空間的整合性を考慮したグラフ認識コントラストを提案する。
提案手法は,様々なMSS分類タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T02:35:22Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - MoDeRNN: Towards Fine-grained Motion Details for Spatiotemporal
Predictive Learning [17.733087434470907]
本稿では,従来の状況と現在の状況との対応性を高めることにより,予測品質の向上に着目する。
詳細コンテキストブロック (DCB) を用いて細かな詳細を抽出し, 上位コンテキスト状態と現在の入力状態の相関性を改善する。
MoDeNNは既存の最先端技術よりも質的にも定量的にも低い負荷で優れている。
論文 参考訳(メタデータ) (2021-10-25T14:12:17Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Demand Forecasting in Bike-sharing Systems Based on A Multiple
Spatiotemporal Fusion Network [7.13331917356962]
BSSの需要予測には空間的・時間的ダイナミクスが不可欠である。
MSTF-Netは3D畳み込みネットワーク(3D-CNN)ブロック、理想的3D畳み込み長短期メモリ(E3D-LSTM)ブロック、完全接続ネットワークという複数のネットワークで構成されている。
2つの実世界のデータセットに対して、MSTF-Netは7つの最先端モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2020-09-23T06:51:23Z) - Dynamic and Static Context-aware LSTM for Multi-agent Motion Prediction [40.20696709103593]
本稿では,動的および静的な文脈認識型動作予測器(DSCMP)の新たな機構であるtextiti.e.を設計する。
豊富な情報をLong-Short-term-Memory (LSTM)に統合する。
エージェント間の動的相互作用を、空間的位置と時間的コヒーレンスの両方を学ぶことによってモデル化する。
潜在変数を推論することでシーンのコンテキストをキャプチャし、意味のあるセマンティックなシーンレイアウトを持つマルチモーダルな予測を可能にする。
論文 参考訳(メタデータ) (2020-08-03T11:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。