論文の概要: PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video
Prediction
- arxiv url: http://arxiv.org/abs/2305.11421v2
- Date: Wed, 24 May 2023 07:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 00:45:50.671309
- Title: PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video
Prediction
- Title(参考訳): PastNet:時空間映像予測のための物理的誘導バイアスの導入
- Authors: Hao Wu, Wei Xiong, Fan Xu, Xiao Luo, Chong Chen, Xian-Sheng Hua and
Haixin Wang
- Abstract要約: 本研究では,過去のデータストリーム上での映像生成に関わる時間的映像予測の課題について検討する。
高品質な予測を生成するために,時空間ネットワーク(PastNet)と呼ばれる新しい手法を導入する。
複素時間信号の処理中に局所的な特徴を識別するために,固有次元の推定値を持つメモリバンクを用いる。
- 参考スコア(独自算出の注目度): 33.25800277291283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the challenge of spatio-temporal video
prediction, which involves generating future videos based on historical data
streams. Existing approaches typically utilize external information such as
semantic maps to enhance video prediction, which often neglect the inherent
physical knowledge embedded within videos. Furthermore, their high
computational demands could impede their applications for high-resolution
videos. To address these constraints, we introduce a novel approach called
Physics-assisted Spatio-temporal Network (PastNet) for generating high-quality
video predictions. The core of our PastNet lies in incorporating a spectral
convolution operator in the Fourier domain, which efficiently introduces
inductive biases from the underlying physical laws. Additionally, we employ a
memory bank with the estimated intrinsic dimensionality to discretize local
features during the processing of complex spatio-temporal signals, thereby
reducing computational costs and facilitating efficient high-resolution video
prediction. Extensive experiments on various widely-used datasets demonstrate
the effectiveness and efficiency of the proposed PastNet compared with
state-of-the-art methods, particularly in high-resolution scenarios. Our code
is available at https://github.com/easylearningscores/PastNet.
- Abstract(参考訳): 本稿では,過去のデータストリームに基づく将来の映像生成を伴う時空間的ビデオ予測の課題について検討する。
既存のアプローチでは、典型的にはセマンティックマップなどの外部情報を使用して、ビデオに埋め込まれた物理的知識を無視するビデオ予測を強化する。
さらに、高い計算要求は高解像度ビデオの応用を阻害する可能性がある。
これらの制約に対処するために,我々は,物理支援時空間ネットワーク (pastnet) と呼ばれる,高品質ビデオ予測のための新しい手法を提案する。
私たちのパスネットの中核は、フーリエ領域にスペクトル畳み込み作用素を組み込むことで、基礎となる物理法則からの帰納的バイアスを効率的に導入することにあります。
さらに,複雑な時空間信号の処理中に局所的な特徴を識別するために,推定固有次元のメモリバンクを用いて計算コストを低減し,高解像度映像の予測を容易にする。
様々な広範に使用されるデータセットに関する広範囲な実験は、特に高解像度シナリオにおいて、最先端の手法と比較して提案するパスネットの有効性と効率を示す。
私たちのコードはhttps://github.com/easylearningscores/pastnetで利用可能です。
関連論文リスト
- Lightweight Stochastic Video Prediction via Hybrid Warping [10.448675566568086]
ディープニューラルネットワークによる正確なビデオ予測、特に動的領域では、自律運転、リモートワーク、遠隔医療といった重要な応用において、コンピュータビジョンにおいて難しい課題である。
本稿では,ハイブリッド・ワープ・ストラテジーを用いて動的領域に着目した,新しい長期的複雑性ビデオ予測モデルを提案する。
リアルタイムの予測を考慮し、MobileNetベースの軽量アーキテクチャをモデルに導入する。
論文 参考訳(メタデータ) (2024-12-04T06:33:27Z) - Expand and Compress: Exploring Tuning Principles for Continual Spatio-Temporal Graph Forecasting [17.530885640317372]
本稿では,新しいプロンプトチューニングに基づく連続予測手法を提案する。
具体的には,基本時相グラフニューラルネットワークと連続的なプロンプトプールをメモリに格納する。
この手法により、モデルが広範囲な時間的データストリームから逐次学習し、対応する期間のタスクを達成できる。
論文 参考訳(メタデータ) (2024-10-16T14:12:11Z) - HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。
従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文 参考訳(メタデータ) (2024-09-16T18:15:38Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - VS-Net: Multiscale Spatiotemporal Features for Lightweight Video Salient
Document Detection [0.2578242050187029]
拡張深度分割可能な畳み込みと近似ランクプーリングの助けを借りて,マルチスケールの時間情報をキャプチャするVS-Netを提案する。
本モデルでは,背景と前景の両方を考慮したサリエンシマップを作成した。
MIDV-500データセットで規制された膨大な実験は、VS-Netモデルが時間と堅牢性の両方で最先端のアプローチより優れていることを示している。
論文 参考訳(メタデータ) (2023-01-11T13:07:31Z) - STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。
我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2022-04-20T13:42:51Z) - Borrowing from yourself: Faster future video segmentation with partial
channel update [0.0]
本稿では,時間依存型チャネルマスキングを用いた畳み込み層を用いて,将来的な映像セグメンテーション予測の課題に取り組むことを提案する。
このテクニックは、各タイミングでフィーチャーマップの選ばれたサブセットだけを更新し、同時に計算とレイテンシを削減します。
この手法をいくつかの高速アーキテクチャに適用し、将来の予測サブタスクに対する利点を実験的に検証する。
論文 参考訳(メタデータ) (2022-02-11T16:37:53Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。