論文の概要: PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video
Prediction
- arxiv url: http://arxiv.org/abs/2305.11421v2
- Date: Wed, 24 May 2023 07:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 00:45:50.671309
- Title: PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video
Prediction
- Title(参考訳): PastNet:時空間映像予測のための物理的誘導バイアスの導入
- Authors: Hao Wu, Wei Xiong, Fan Xu, Xiao Luo, Chong Chen, Xian-Sheng Hua and
Haixin Wang
- Abstract要約: 本研究では,過去のデータストリーム上での映像生成に関わる時間的映像予測の課題について検討する。
高品質な予測を生成するために,時空間ネットワーク(PastNet)と呼ばれる新しい手法を導入する。
複素時間信号の処理中に局所的な特徴を識別するために,固有次元の推定値を持つメモリバンクを用いる。
- 参考スコア(独自算出の注目度): 33.25800277291283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the challenge of spatio-temporal video
prediction, which involves generating future videos based on historical data
streams. Existing approaches typically utilize external information such as
semantic maps to enhance video prediction, which often neglect the inherent
physical knowledge embedded within videos. Furthermore, their high
computational demands could impede their applications for high-resolution
videos. To address these constraints, we introduce a novel approach called
Physics-assisted Spatio-temporal Network (PastNet) for generating high-quality
video predictions. The core of our PastNet lies in incorporating a spectral
convolution operator in the Fourier domain, which efficiently introduces
inductive biases from the underlying physical laws. Additionally, we employ a
memory bank with the estimated intrinsic dimensionality to discretize local
features during the processing of complex spatio-temporal signals, thereby
reducing computational costs and facilitating efficient high-resolution video
prediction. Extensive experiments on various widely-used datasets demonstrate
the effectiveness and efficiency of the proposed PastNet compared with
state-of-the-art methods, particularly in high-resolution scenarios. Our code
is available at https://github.com/easylearningscores/PastNet.
- Abstract(参考訳): 本稿では,過去のデータストリームに基づく将来の映像生成を伴う時空間的ビデオ予測の課題について検討する。
既存のアプローチでは、典型的にはセマンティックマップなどの外部情報を使用して、ビデオに埋め込まれた物理的知識を無視するビデオ予測を強化する。
さらに、高い計算要求は高解像度ビデオの応用を阻害する可能性がある。
これらの制約に対処するために,我々は,物理支援時空間ネットワーク (pastnet) と呼ばれる,高品質ビデオ予測のための新しい手法を提案する。
私たちのパスネットの中核は、フーリエ領域にスペクトル畳み込み作用素を組み込むことで、基礎となる物理法則からの帰納的バイアスを効率的に導入することにあります。
さらに,複雑な時空間信号の処理中に局所的な特徴を識別するために,推定固有次元のメモリバンクを用いて計算コストを低減し,高解像度映像の予測を容易にする。
様々な広範に使用されるデータセットに関する広範囲な実験は、特に高解像度シナリオにおいて、最先端の手法と比較して提案するパスネットの有効性と効率を示す。
私たちのコードはhttps://github.com/easylearningscores/pastnetで利用可能です。
関連論文リスト
- Expand and Compress: Exploring Tuning Principles for Continual Spatio-Temporal Graph Forecasting [17.530885640317372]
本稿では,新しいプロンプトチューニングに基づく連続予測手法を提案する。
具体的には,基本時相グラフニューラルネットワークと連続的なプロンプトプールをメモリに格納する。
この手法により、モデルが広範囲な時間的データストリームから逐次学習し、対応する期間のタスクを達成できる。
論文 参考訳(メタデータ) (2024-10-16T14:12:11Z) - HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。
従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文 参考訳(メタデータ) (2024-09-16T18:15:38Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Viewport Prediction for Volumetric Video Streaming by Exploring Video Saliency and Trajectory Information [45.31198546289057]
本稿では,Saliency and Trajectory Viewport Prediction (STVP) という新しいアプローチを提案し,提案する。
ボリュームビデオストリーミングにおけるビューポート予測の精度の向上を目的としている。
特に,計算複雑性を低減するために,新しいサンプリング手法であるUniform Random Smpling (URS)を導入する。
論文 参考訳(メタデータ) (2023-11-28T03:45:29Z) - Lightweight Delivery Detection on Doorbell Cameras [9.735137325682825]
本研究では,重要なホームアプリケーション,ビデオベースの配信検出について検討し,簡単な軽量パイプラインを提案する。
提案手法は,移動自在な3DCNNネットワークを用いて,一連の粗い活動キューを生成するために拘束された動きに依存している。
論文 参考訳(メタデータ) (2023-05-13T01:28:28Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。
我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2022-04-20T13:42:51Z) - Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文 参考訳(メタデータ) (2021-12-18T08:16:21Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Non-linear State-space Model Identification from Video Data using Deep
Encoders [0.0]
本稿では,高次元入力および出力データから始まる非線形状態空間同定手法を提案する。
ニューラルネットワークで表現されたエンコーダ関数を導入して再構成可能性マップを学習し、過去の入力や出力からモデル状態を予測する。
ユニットボックス内の制御可能なボールのシミュレーション環境の映像ストリームに,提案手法を適用した。
論文 参考訳(メタデータ) (2020-12-14T17:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。