論文の概要: Lightweight Stochastic Video Prediction via Hybrid Warping
- arxiv url: http://arxiv.org/abs/2412.03061v1
- Date: Wed, 04 Dec 2024 06:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:17.857985
- Title: Lightweight Stochastic Video Prediction via Hybrid Warping
- Title(参考訳): ハイブリッドワープによる軽量確率的映像予測
- Authors: Kazuki Kotoyori, Shota Hirose, Heming Sun, Jiro Katto,
- Abstract要約: ディープニューラルネットワークによる正確なビデオ予測、特に動的領域では、自律運転、リモートワーク、遠隔医療といった重要な応用において、コンピュータビジョンにおいて難しい課題である。
本稿では,ハイブリッド・ワープ・ストラテジーを用いて動的領域に着目した,新しい長期的複雑性ビデオ予測モデルを提案する。
リアルタイムの予測を考慮し、MobileNetベースの軽量アーキテクチャをモデルに導入する。
- 参考スコア(独自算出の注目度): 10.448675566568086
- License:
- Abstract: Accurate video prediction by deep neural networks, especially for dynamic regions, is a challenging task in computer vision for critical applications such as autonomous driving, remote working, and telemedicine. Due to inherent uncertainties, existing prediction models often struggle with the complexity of motion dynamics and occlusions. In this paper, we propose a novel stochastic long-term video prediction model that focuses on dynamic regions by employing a hybrid warping strategy. By integrating frames generated through forward and backward warpings, our approach effectively compensates for the weaknesses of each technique, improving the prediction accuracy and realism of moving regions in videos while also addressing uncertainty by making stochastic predictions that account for various motions. Furthermore, considering real-time predictions, we introduce a MobileNet-based lightweight architecture into our model. Our model, called SVPHW, achieves state-of-the-art performance on two benchmark datasets.
- Abstract(参考訳): ディープニューラルネットワークによる正確なビデオ予測、特に動的領域では、自律運転、リモートワーク、遠隔医療といった重要な応用において、コンピュータビジョンにおいて難しい課題である。
固有の不確実性のため、既存の予測モデルは運動力学や閉塞の複雑さに悩まされることが多い。
本稿では,ハイブリッドワープ戦略を用いて動的領域に着目した確率的長期ビデオ予測モデルを提案する。
前後のワープによって生成されたフレームを統合することにより,各手法の弱点を効果的に補償し,動画内の移動領域の予測精度とリアリズムを向上させるとともに,様々な動きを考慮した確率的予測を行うことによって不確実性に対処する。
さらに、リアルタイム予測を考慮し、MobileNetベースの軽量アーキテクチャをモデルに導入する。
我々のモデルはSVPHWと呼ばれ、2つのベンチマークデータセット上で最先端のパフォーマンスを達成する。
関連論文リスト
- Characterized Diffusion Networks for Enhanced Autonomous Driving Trajectory Prediction [0.6202955567445396]
本稿では,自律走行のための新しい軌道予測モデルを提案する。
本モデルは,不確実性推定と複雑なエージェント相互作用を組み込むことにより,軌道予測の精度と信頼性を向上させる。
提案モデルでは,実環境における自律走行システムへの応用の可能性を示す。
論文 参考訳(メタデータ) (2024-11-25T15:03:44Z) - Physics-guided Active Sample Reweighting for Urban Flow Prediction [75.24539704456791]
都市フロー予測は、バス、タクシー、ライド駆動モデルといった交通サービスのスループットを見積もる、微妙な時間的モデリングである。
最近の予測解は、物理学誘導機械学習(PGML)の概念による改善をもたらす。
我々は、PN(atized Physics-guided Network)を開発し、P-GASR(Physical-guided Active Sample Reweighting)を提案する。
論文 参考訳(メタデータ) (2024-07-18T15:44:23Z) - GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - State-space Decomposition Model for Video Prediction Considering Long-term Motion Trend [3.910356300831074]
本稿では,全体の映像フレーム生成を決定論的外観予測と動き予測に分解する状態空間分解ビデオ予測モデルを提案する。
条件付きフレームから長期動作傾向を推定し,条件付きフレームとの高整合性を示す将来のフレームの生成を導く。
論文 参考訳(メタデータ) (2024-04-17T17:19:48Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Evaluation of Differentially Constrained Motion Models for Graph-Based
Trajectory Prediction [1.1947990549568765]
本研究では,予測課題に対する数値解法と組み合わせた各種動作モデルの性能について検討する。
この研究は、低階積分子モデルのようなより単純なモデルは、正確な予測を達成するために、より複雑な、例えばキネマティックモデルよりも好まれることを示している。
論文 参考訳(メタデータ) (2023-04-11T10:15:20Z) - LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - SFMGNet: A Physics-based Neural Network To Predict Pedestrian
Trajectories [2.862893981836593]
本稿では,歩行者の軌跡を予測する物理に基づくニューラルネットワークを提案する。
我々は、現実的な予測、予測性能、および「解釈可能性」に関するモデルを定量的に質的に評価する。
最初の結果は、合成データセットでのみ訓練されたモデルであっても、最先端の精度よりも現実的で解釈可能な軌道を予測できることを示唆している。
論文 参考訳(メタデータ) (2022-02-06T14:58:09Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - A Gated Fusion Network for Dynamic Saliency Prediction [16.701214795454536]
Gated Fusion Network for dynamic saliency (GFSalNet)
GFSalNetはゲート融合機構を介して動的に予測を行うことができる最初のディープサリエンシーモデルです。
さらに,その適応的融合手法により,時間情報をより効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-02-15T17:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。