論文の概要: TKN: Transformer-based Keypoint Prediction Network For Real-time Video
Prediction
- arxiv url: http://arxiv.org/abs/2303.09807v2
- Date: Mon, 20 Mar 2023 10:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 11:31:52.521338
- Title: TKN: Transformer-based Keypoint Prediction Network For Real-time Video
Prediction
- Title(参考訳): TKN:リアルタイムビデオ予測のためのトランスフォーマーベースのキーポイント予測ネットワーク
- Authors: Haoran Li, Pengyuan Zhou, Yihang Lin, Yanbin Hao, Haiyong Xie, Yong
Liao
- Abstract要約: ビデオ予測のためのトランスフォーマーベースキーポイント予測ニューラルネットワーク(TKN)を提案する。
TKNは、制約付き情報抽出と並列予測スキームによる予測プロセスを向上する教師なし学習手法である。
KTHとHuman3.6データセットに関する大規模な実験は、TKNが既存の方法よりも11倍高速であることを示している。
- 参考スコア(独自算出の注目度): 16.294105130947
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video prediction is a complex time-series forecasting task with great
potential in many use cases. However, conventional methods overemphasize
accuracy while ignoring the slow prediction speed caused by complicated model
structures that learn too much redundant information with excessive GPU memory
consumption. Furthermore, conventional methods mostly predict frames
sequentially (frame-by-frame) and thus are hard to accelerate. Consequently,
valuable use cases such as real-time danger prediction and warning cannot
achieve fast enough inference speed to be applicable in reality. Therefore, we
propose a transformer-based keypoint prediction neural network (TKN), an
unsupervised learning method that boost the prediction process via constrained
information extraction and parallel prediction scheme. TKN is the first
real-time video prediction solution to our best knowledge, while significantly
reducing computation costs and maintaining other performance. Extensive
experiments on KTH and Human3.6 datasets demonstrate that TKN predicts 11 times
faster than existing methods while reducing memory consumption by 17.4% and
achieving state-of-the-art prediction performance on average.
- Abstract(参考訳): ビデオ予測は、多くのユースケースにおいて大きなポテンシャルを持つ複雑な時系列予測タスクである。
しかし、従来の手法では、過剰なGPUメモリ消費で過度に冗長な情報を学習する複雑なモデル構造による遅延予測速度を無視しながら、精度を過度に強調する。
さらに,従来の手法ではフレームを逐次(フレーム単位で)予測することが多いため,高速化は困難である。
したがって、リアルタイムの危険予知や警告のような貴重なユースケースは、現実に適用できる十分な推論速度を達成できない。
そこで本研究では,制約付き情報抽出と並列予測による予測プロセスを促進する教師なし学習手法であるtransformer-based keypoint prediction neural network (tkn)を提案する。
TKNは私たちの知る限りでは初めてのリアルタイムビデオ予測ソリューションであり、計算コストを大幅に削減し、他の性能を維持する。
KTHとHuman3.6データセットの大規模な実験により、TKNは既存の手法よりも11倍高速で、メモリ消費を17.4%削減し、最先端の予測性能を平均で達成している。
関連論文リスト
- Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction [50.361427832256524]
動き補償を改善するために,粗大なC2F(Deep Video compression framework)を提案する。
我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。
論文 参考訳(メタデータ) (2022-06-15T11:38:53Z) - A Novel Prediction Setup for Online Speed-Scaling [3.3440413258080577]
アルゴリズムを設計(スケジュール)する際にエネルギー的考慮を組み込むのが基本である。
本稿では,古典的,期限ベース,オンラインの高速スケーリング問題に対して,両世界の長所を把握しようと試みる。
論文 参考訳(メタデータ) (2021-12-06T14:46:20Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Uncertainty-Aware Time-to-Event Prediction using Deep Kernel Accelerated
Failure Time Models [11.171712535005357]
本稿では,時間-時間予測タスクのためのDeep Kernel Accelerated Failure Timeモデルを提案する。
我々のモデルは、2つの実世界のデータセットの実験において、繰り返しニューラルネットワークに基づくベースラインよりも良い点推定性能を示す。
論文 参考訳(メタデータ) (2021-07-26T14:55:02Z) - Adversarial Refinement Network for Human Motion Prediction [61.50462663314644]
リカレントニューラルネットワークとフィードフォワードディープネットワークという2つの一般的な手法は、粗い動きの傾向を予測することができる。
本稿では,新たな逆誤差増大を伴う簡易かつ効果的な粗大きめ機構に従えば,ARNet(Adversarial Refinement Network)を提案する。
論文 参考訳(メタデータ) (2020-11-23T05:42:20Z) - Long-Short Term Spatiotemporal Tensor Prediction for Passenger Flow
Profile [15.875569404476495]
本稿では,テンソルに基づく予測に焦点をあて,予測を改善するためのいくつかの実践的手法を提案する。
具体的には、長期予測のために「テンソル分解+2次元自己回帰移動平均(2D-ARMA)」モデルを提案する。
短期予測のために,テンソルクラスタリングに基づくテンソル補完を行い,過度に単純化され精度が保証されるのを避けることを提案する。
論文 参考訳(メタデータ) (2020-04-23T08:30:00Z) - Predictive Business Process Monitoring via Generative Adversarial Nets:
The Case of Next Event Prediction [0.026249027950824504]
本稿では,次の事象予測の問題に対処するための,新たな逆トレーニングフレームワークを提案する。
これは、2人のプレイヤーのゲームで1つのニューラルネットワークをもう1つのニューラルネットワークと対戦させることで機能し、それは地上の真実と区別できない予測につながる。
単純なネットワークアーキテクチャとナイーブな特徴符号化を使用しても、正確さと予測のイヤーラインの両方において、体系的にすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-03-25T08:31:28Z) - Accelerating Deep Reinforcement Learning With the Aid of Partial Model:
Energy-Efficient Predictive Video Streaming [97.75330397207742]
深層強化学習を用いて,モバイルネットワーク上でのエネルギー効率の高いビデオストリーミングのための予測電力割り当てを考案した。
連続状態と行動空間を扱うために、我々はDeep Deterministic Policy gradient (DDPG)アルゴリズムを利用する。
シミュレーションの結果,提案手法は完全大規模チャネル予測に基づいて導出される最適方針に収束することが示された。
論文 参考訳(メタデータ) (2020-03-21T17:36:53Z) - Post-Estimation Smoothing: A Simple Baseline for Learning with Side
Information [102.18616819054368]
本稿では,構造指標データを予測に組み込む高速かつ効率的な手法として,後推定平滑化演算子を提案する。
滑らかなステップは元の予測器とは分離されているため、機械学習タスクの幅広いクラスに適用できる。
大規模な空間的・時間的データセットに関する実験は,実測後のスムース化の速度と正確さを浮き彫りにした。
論文 参考訳(メタデータ) (2020-03-12T18:04:20Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。