論文の概要: Long-horizon video prediction using a dynamic latent hierarchy
- arxiv url: http://arxiv.org/abs/2212.14376v1
- Date: Thu, 29 Dec 2022 17:19:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:11:16.363361
- Title: Long-horizon video prediction using a dynamic latent hierarchy
- Title(参考訳): 動的潜在階層を用いたロングホリゾン映像予測
- Authors: Alexey Zakharov, Qinghai Guo, Zafeirios Fountas
- Abstract要約: 遅延状態の階層としてビデオを表現する潜在モデルである動的遅延(DLH)を紹介する。
DLHはその階層をまたいで表現を歪めることを学ぶ。
ビデオ予測において,DLHが最先端のベンチマークより優れていることを示す。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of video prediction and generation is known to be notoriously
difficult, with the research in this area largely limited to short-term
predictions. Though plagued with noise and stochasticity, videos consist of
features that are organised in a spatiotemporal hierarchy, different features
possessing different temporal dynamics. In this paper, we introduce Dynamic
Latent Hierarchy (DLH) -- a deep hierarchical latent model that represents
videos as a hierarchy of latent states that evolve over separate and fluid
timescales. Each latent state is a mixture distribution with two components,
representing the immediate past and the predicted future, causing the model to
learn transitions only between sufficiently dissimilar states, while clustering
temporally persistent states closer together. Using this unique property, DLH
naturally discovers the spatiotemporal structure of a dataset and learns
disentangled representations across its hierarchy. We hypothesise that this
simplifies the task of modeling temporal dynamics of a video, improves the
learning of long-term dependencies, and reduces error accumulation. As
evidence, we demonstrate that DLH outperforms state-of-the-art benchmarks in
video prediction, is able to better represent stochasticity, as well as to
dynamically adjust its hierarchical and temporal structure. Our paper shows,
among other things, how progress in representation learning can translate into
progress in prediction tasks.
- Abstract(参考訳): 映像予測と生成の課題は、この領域の研究は短期的な予測に限られており、非常に難しいことが知られている。
ノイズと確率性に悩まされているが、ビデオは時空間的階層で整理される特徴からなり、異なる時間的ダイナミクスを持つ。
本稿では,動的潜時階層 (DLH) について述べる。これはビデオの階層構造を動的潜時階層として表現する階層的潜時階層モデルである。
それぞれの潜伏状態は2つの成分の混合分布であり、即時過去と予測される未来を表し、モデルが十分に異なる状態の間でのみ遷移を学習し、同時に時間的に永続的な状態をクラスタリングする。
このユニークな性質を用いて、DLHはデータセットの時空間構造を自然に発見し、その階層にわたって非交叉表現を学ぶ。
ビデオの時間的ダイナミクスをモデル化するタスクを単純化し、長期依存の学習を改善し、エラーの蓄積を減らすことを仮定する。
証拠として,ビデオ予測においてDLHが最先端のベンチマークを上回り,確率性を表現し,階層構造や時間構造を動的に調整できることを示す。
本稿では,表現学習の進歩が予測タスクの進歩にどのように変換されるかを示す。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Skeleton-Based Action Segmentation with Multi-Stage Spatial-Temporal
Graph Convolutional Neural Networks [0.5156484100374059]
最先端のアクションセグメンテーションアプローチは、時間的畳み込みの複数の段階を使用する。
多段階時空間グラフ畳み込みニューラルネットワーク(MS-GCN)を提案する。
時間的畳み込みの初期段階を空間的時間的グラフ畳み込みに置き換え、関節の空間的構成をよりよく活用する。
論文 参考訳(メタデータ) (2022-02-03T17:42:04Z) - Variational Predictive Routing with Nested Subjective Timescales [1.6114012813668934]
本稿では,時間的階層に潜む映像の特徴を整理するニューラル推論システムである変動予測ルーティング(PRV)を提案する。
VPRはイベント境界を検出し、時間的特徴を分散させ、データの動的階層に適応し、未来の正確な時間に依存しないロールアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-10-21T16:12:59Z) - ModeRNN: Harnessing Spatiotemporal Mode Collapse in Unsupervised
Predictive Learning [75.2748374360642]
そこで本研究では,繰り返し状態間の隠れ構造表現を学習するための新しい手法であるModeRNNを提案する。
データセット全体にわたって、異なるモードがスロットの混合に対して異なるレスポンスをもたらすため、ModeRNNが構造化された表現を構築する能力が向上する。
論文 参考訳(メタデータ) (2021-10-08T03:47:54Z) - Simple Video Generation using Neural ODEs [9.303957136142293]
我々は、潜在空間の将来を予測する潜在変数モデルを学び、ピクセルに投影する。
1桁と2桁の移動MNISTデータセットにおける将来のフレーム予測のタスクにおいて,提案手法が有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-07T19:03:33Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。