Fugu-MT 論文翻訳(概要): PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video Prediction

論文の概要: PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video Prediction

arxiv url: http://arxiv.org/abs/2305.11421v3
Date: Tue, 14 Jan 2025 08:59:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.04512
Title: PastNet: Introducing Physical Inductive Biases for Spatio-temporal Video Prediction
Title（参考訳）: PastNet:時空間映像予測のための物理的誘導バイアスの導入
Authors: Hao Wu, Fan Xu, Chong Chen, Xian-Sheng Hua, Xiao Luo, Haixin Wang,
Abstract要約: 我々は、高品質なビデオ予測のためのアンダーラインPhysics-underlineassisted underlineS-underlinetmporal underlineNetwork(PastNet)という新しいフレームワークを導入する。 PastNetの中核はフーリエ領域のスペクトル畳み込み演算子であり、基礎となる物理法則からの帰納バイアスを効率的に導入する。
参考スコア（独自算出の注目度）: 33.49012160493161
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we investigate the challenge of spatio-temporal video prediction task, which involves generating future video frames based on historical spatio-temporal observation streams. Existing approaches typically utilize external information such as semantic maps to improve video prediction accuracy, which often neglect the inherent physical knowledge embedded within videos. Worse still, their high computational costs could impede their applications for high-resolution videos. To address these constraints, we introduce a novel framework called \underline{P}hysics-\underline{a}ssisted \underline{S}patio-\underline{t}emporal \underline{Net}work (PastNet) for high-quality video prediction. The core of PastNet lies in incorporating a spectral convolution operator in the Fourier domain, which efficiently introduces inductive biases from the underlying physical laws. Additionally, we employ a memory bank with the estimated intrinsic dimensionality to discretize local features during the processing of complex spatio-temporal signals, thereby reducing computational costs and facilitating efficient high-resolution video prediction. Extensive experiments on various widely-used spatio-temporal video benchmarks demonstrate the effectiveness and efficiency of the proposed PastNet compared with a range of state-of-the-art methods, particularly in high-resolution scenarios.
Abstract（参考訳）: 本稿では,過去の時空間観測ストリームに基づいて,将来的な映像フレームの生成を伴う時空間映像予測タスクの課題について検討する。既存のアプローチは通常、セマンティックマップのような外部情報を利用して、ビデオの予測精度を向上させる。さらに悪いことに、その高い計算コストは、高解像度ビデオの応用を妨げる可能性がある。これらの制約に対処するため、高品質なビデオ予測のための新しいフレームワークである \underline{P}hysics-\underline{a}ssisted \underline{S}patio-\underline{t}emporal \underline{Net}work (PastNet)を導入する。 PastNetの中核はフーリエ領域にスペクトル畳み込み演算子を組み込むことであり、基礎となる物理法則からの帰納バイアスを効率的に導入する。さらに,複雑な時空間信号の処理中に局所的な特徴を識別するために,推定固有次元のメモリバンクを用いて計算コストを低減し,高解像度映像の予測を容易にする。広範に使用されている時空間ビデオベンチマークの大規模な実験は、特に高解像度のシナリオにおいて、最先端の手法と比較して提案したPassNetの有効性と効率を実証している。

関連論文リスト

FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-01T10:57:37Z)
AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis [52.261173507177396]
AssistPDAは,Anomaly Prediction, Detection and Analysis (VAPDA) を単一のフレームワークに統合した,初のオンラインビデオ異常監視アシスタントである。 AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。また,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
論文参考訳（メタデータ） (2025-03-27T18:30:47Z)
Lightweight Stochastic Video Prediction via Hybrid Warping [10.448675566568086]
ディープニューラルネットワークによる正確なビデオ予測、特に動的領域では、自律運転、リモートワーク、遠隔医療といった重要な応用において、コンピュータビジョンにおいて難しい課題である。本稿では,ハイブリッド・ワープ・ストラテジーを用いて動的領域に着目した,新しい長期的複雑性ビデオ予測モデルを提案する。リアルタイムの予測を考慮し、MobileNetベースの軽量アーキテクチャをモデルに導入する。
論文参考訳（メタデータ） (2024-12-04T06:33:27Z)
Expand and Compress: Exploring Tuning Principles for Continual Spatio-Temporal Graph Forecasting [17.530885640317372]
本稿では,新しいプロンプトチューニングに基づく連続予測手法を提案する。具体的には,基本時相グラフニューラルネットワークと連続的なプロンプトプールをメモリに格納する。この手法により、モデルが広範囲な時間的データストリームから逐次学習し、対応する期間のタスクを達成できる。
論文参考訳（メタデータ） (2024-10-16T14:12:11Z)
HAVANA: Hierarchical stochastic neighbor embedding for Accelerated Video ANnotAtions [59.71751978599567]
本稿では,時間的ビデオアノテーションプロセスの高速化のために,事前抽出した特徴量と次元減少量を用いた新しいアノテーションパイプラインを提案する。従来のリニア手法と比較して,アノテーションの取り組みが大幅に改善され,12時間以上のビデオのアノテートに要するクリック数が10倍以上に短縮された。
論文参考訳（メタデータ） (2024-09-16T18:15:38Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Spatial Decomposition and Temporal Fusion based Inter Prediction for Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。 SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文参考訳（メタデータ） (2024-01-29T03:30:21Z)
Viewport Prediction for Volumetric Video Streaming by Exploring Video Saliency and Trajectory Information [45.31198546289057]
本稿では,Saliency and Trajectory Viewport Prediction (STVP) という新しいアプローチを提案し,提案する。ボリュームビデオストリーミングにおけるビューポート予測の精度の向上を目的としている。特に,計算複雑性を低減するために,新しいサンプリング手法であるUniform Random Smpling (URS)を導入する。
論文参考訳（メタデータ） (2023-11-28T03:45:29Z)
Lightweight Delivery Detection on Doorbell Cameras [9.735137325682825]
本研究では,重要なホームアプリケーション,ビデオベースの配信検出について検討し,簡単な軽量パイプラインを提案する。提案手法は,移動自在な3DCNNネットワークを用いて,一連の粗い活動キューを生成するために拘束された動きに依存している。
論文参考訳（メタデータ） (2023-05-13T01:28:28Z)
STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文参考訳（メタデータ） (2022-06-09T09:49:04Z)
STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond [78.129039340528]
本稿では,映像予測などのための時間認識ユニット(STAU)を提案する。我々のSTAUは、性能と効率の点で、全てのタスクにおける他のメソッドよりも優れています。
論文参考訳（メタデータ） (2022-04-20T13:42:51Z)
Borrowing from yourself: Faster future video segmentation with partial channel update [0.0]
本稿では,時間依存型チャネルマスキングを用いた畳み込み層を用いて,将来的な映像セグメンテーション予測の課題に取り組むことを提案する。このテクニックは、各タイミングでフィーチャーマップの選ばれたサブセットだけを更新し、同時に計算とレイテンシを削減します。この手法をいくつかの高速アーキテクチャに適用し、将来の予測サブタスクに対する利点を実験的に検証する。
論文参考訳（メタデータ） (2022-02-11T16:37:53Z)
Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文参考訳（メタデータ） (2021-12-18T08:16:21Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Non-linear State-space Model Identification from Video Data using Deep Encoders [0.0]
本稿では,高次元入力および出力データから始まる非線形状態空間同定手法を提案する。ニューラルネットワークで表現されたエンコーダ関数を導入して再構成可能性マップを学習し、過去の入力や出力からモデル状態を予測する。ユニットボックス内の制御可能なボールのシミュレーション環境の映像ストリームに,提案手法を適用した。
論文参考訳（メタデータ） (2020-12-14T17:14:46Z)
Intrinsic Temporal Regularization for High-resolution Human Video Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文参考訳（メタデータ） (2020-12-11T05:29:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。