論文の概要: PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video Prediction
- arxiv url: http://arxiv.org/abs/2305.11421v3
- Date: Tue, 14 Jan 2025 08:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:26:56.296737
- Title: PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video Prediction
- Title(参考訳): PastNet:時空間映像予測のための物理的誘導バイアスの導入
- Authors: Hao Wu, Fan Xu, Chong Chen, Xian-Sheng Hua, Xiao Luo, Haixin Wang,
- Abstract要約: 我々は、高品質なビデオ予測のためのアンダーラインPhysics-underlineassisted underlineS-underlinetmporal underlineNetwork(PastNet)という新しいフレームワークを導入する。
PastNetの中核はフーリエ領域のスペクトル畳み込み演算子であり、基礎となる物理法則からの帰納バイアスを効率的に導入する。
- 参考スコア(独自算出の注目度): 33.49012160493161
- License:
- Abstract: In this paper, we investigate the challenge of spatio-temporal video prediction task, which involves generating future video frames based on historical spatio-temporal observation streams. Existing approaches typically utilize external information such as semantic maps to improve video prediction accuracy, which often neglect the inherent physical knowledge embedded within videos. Worse still, their high computational costs could impede their applications for high-resolution videos. To address these constraints, we introduce a novel framework called \underline{P}hysics-\underline{a}ssisted \underline{S}patio-\underline{t}emporal \underline{Net}work (PastNet) for high-quality video prediction. The core of PastNet lies in incorporating a spectral convolution operator in the Fourier domain, which efficiently introduces inductive biases from the underlying physical laws. Additionally, we employ a memory bank with the estimated intrinsic dimensionality to discretize local features during the processing of complex spatio-temporal signals, thereby reducing computational costs and facilitating efficient high-resolution video prediction. Extensive experiments on various widely-used spatio-temporal video benchmarks demonstrate the effectiveness and efficiency of the proposed PastNet compared with a range of state-of-the-art methods, particularly in high-resolution scenarios.
- Abstract(参考訳): 本稿では,過去の時空間観測ストリームに基づいて,将来的な映像フレームの生成を伴う時空間映像予測タスクの課題について検討する。
既存のアプローチは通常、セマンティックマップのような外部情報を利用して、ビデオの予測精度を向上させる。
さらに悪いことに、その高い計算コストは、高解像度ビデオの応用を妨げる可能性がある。
これらの制約に対処するため、高品質なビデオ予測のための新しいフレームワークである \underline{P}hysics-\underline{a}ssisted \underline{S}patio-\underline{t}emporal \underline{Net}work (PastNet)を導入する。
PastNetの中核はフーリエ領域にスペクトル畳み込み演算子を組み込むことであり、基礎となる物理法則からの帰納バイアスを効率的に導入する。
さらに,複雑な時空間信号の処理中に局所的な特徴を識別するために,推定固有次元のメモリバンクを用いて計算コストを低減し,高解像度映像の予測を容易にする。
広範に使用されている時空間ビデオベンチマークの大規模な実験は、特に高解像度のシナリオにおいて、最先端の手法と比較して提案したPassNetの有効性と効率を実証している。
関連論文リスト
- Lightweight Stochastic Video Prediction via Hybrid Warping [10.448675566568086]
ディープニューラルネットワークによる正確なビデオ予測、特に動的領域では、自律運転、リモートワーク、遠隔医療といった重要な応用において、コンピュータビジョンにおいて難しい課題である。
本稿では,ハイブリッド・ワープ・ストラテジーを用いて動的領域に着目した,新しい長期的複雑性ビデオ予測モデルを提案する。
リアルタイムの予測を考慮し、MobileNetベースの軽量アーキテクチャをモデルに導入する。
論文 参考訳(メタデータ) (2024-12-04T06:33:27Z) - Expand and Compress: Exploring Tuning Principles for Continual Spatio-Temporal Graph Forecasting [17.530885640317372]
本稿では,新しいプロンプトチューニングに基づく連続予測手法を提案する。
具体的には,基本時相グラフニューラルネットワークと連続的なプロンプトプールをメモリに格納する。
この手法により、モデルが広範囲な時間的データストリームから逐次学習し、対応する期間のタスクを達成できる。
論文 参考訳(メタデータ) (2024-10-16T14:12:11Z) - HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。
従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文 参考訳(メタデータ) (2024-09-16T18:15:38Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - VS-Net: Multiscale Spatiotemporal Features for Lightweight Video Salient
Document Detection [0.2578242050187029]
拡張深度分割可能な畳み込みと近似ランクプーリングの助けを借りて,マルチスケールの時間情報をキャプチャするVS-Netを提案する。
本モデルでは,背景と前景の両方を考慮したサリエンシマップを作成した。
MIDV-500データセットで規制された膨大な実験は、VS-Netモデルが時間と堅牢性の両方で最先端のアプローチより優れていることを示している。
論文 参考訳(メタデータ) (2023-01-11T13:07:31Z) - STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。
我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2022-04-20T13:42:51Z) - Borrowing from yourself: Faster future video segmentation with partial
channel update [0.0]
本稿では,時間依存型チャネルマスキングを用いた畳み込み層を用いて,将来的な映像セグメンテーション予測の課題に取り組むことを提案する。
このテクニックは、各タイミングでフィーチャーマップの選ばれたサブセットだけを更新し、同時に計算とレイテンシを削減します。
この手法をいくつかの高速アーキテクチャに適用し、将来の予測サブタスクに対する利点を実験的に検証する。
論文 参考訳(メタデータ) (2022-02-11T16:37:53Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。