論文の概要: Taylor saves for later: disentanglement for video prediction using
Taylor representation
- arxiv url: http://arxiv.org/abs/2105.11062v1
- Date: Mon, 24 May 2021 01:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:27:17.183735
- Title: Taylor saves for later: disentanglement for video prediction using
Taylor representation
- Title(参考訳): Taylorが後に保存:Taylor表現を用いたビデオ予測の混乱
- Authors: Ting Pan and Zhuqing Jiang and Jianan Han and Shiping Wen and Aidong
Men and Haiying Wang
- Abstract要約: ビデオフレームにおけるTaylor特徴と残像をアンタングル化する2分岐Seq-to-seqディープモデルを提案する。
TaylorCell はビデオフレームの高次元特徴を有限テイラー級数に拡張し、潜在法則を記述する。
MCUは過去のフレームの情報をすべて蒸留し、予測されたテイラー特徴をTPUから補正する。
- 参考スコア(独自算出の注目度): 5.658571172210811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction is a challenging task with wide application prospects in
meteorology and robot systems. Existing works fail to trade off short-term and
long-term prediction performances and extract robust latent dynamics laws in
video frames. We propose a two-branch seq-to-seq deep model to disentangle the
Taylor feature and the residual feature in video frames by a novel recurrent
prediction module (TaylorCell) and residual module. TaylorCell can expand the
video frames' high-dimensional features into the finite Taylor series to
describe the latent laws. In TaylorCell, we propose the Taylor prediction unit
(TPU) and the memory correction unit (MCU). TPU employs the first input frame's
derivative information to predict the future frames, avoiding error
accumulation. MCU distills all past frames' information to correct the
predicted Taylor feature from TPU. Correspondingly, the residual module
extracts the residual feature complementary to the Taylor feature. On three
generalist datasets (Moving MNIST, TaxiBJ, Human 3.6), our model outperforms or
reaches state-of-the-art models, and ablation experiments demonstrate the
effectiveness of our model in long-term prediction.
- Abstract(参考訳): ビデオ予測は、気象学やロボットシステムにおける幅広い応用の課題である。
既存の作業は、短期的および長期的な予測性能のトレードオフに失敗し、ビデオフレーム内で堅牢な潜在力学則を抽出する。
本稿では,新しい再帰予測モジュール(taylorcell)と残差モジュールを用いて,ビデオフレームのテイラー特徴と残差特徴を分離する2分岐型seq-to-seq深層モデルを提案する。
TaylorCell はビデオフレームの高次元特徴を有限テイラー級数に拡張し、潜在法則を記述する。
TaylorCell では,Taylor 予測ユニット (TPU) とメモリ補正ユニット (MCU) を提案する。
TPUは、最初の入力フレームのデリバティブ情報を使用して、将来のフレームを予測する。
MCUは過去のフレームの情報をすべて蒸留し、予測されたテイラー特徴をTPUから補正する。
それに応じて、残余モジュールは、テイラー特徴に相補的な残余特徴を抽出する。
3つのジェネラリストデータセット (moving mnist, taxibj, human 3.6) について,本モデルが最先端モデルを上回るか,あるいは到達し,アブレーション実験により長期予測におけるモデルの有効性が実証された。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Taylor Videos for Action Recognition [15.728388101131056]
Taylorビデオは、Taylorフレームと呼ばれるそれぞれのフレームにおける支配的な動きをハイライトする新しいビデオフォーマットだ。
テイラー級数 (Taylor series) は、ある点における関数を重要な項で近似するテイラー級数 (Taylor series) にちなむ。
テイラービデオは2D CNN, 3D CNN, トランスフォーマーなど, 一般的なアーキテクチャへの効果的なインプットであることを示す。
論文 参考訳(メタデータ) (2024-02-05T14:00:13Z) - MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor
Formula for Image Dehazing [88.61523825903998]
トランスフォーマーネットワークは、コンピュータビジョンの分野における純粋な畳み込みニューラルネットワーク(CNN)を置き換えるようになった。
そこで本研究では,Taylor拡張を応用してソフトマックスアテンションを近似し,線形計算複雑性を実現するトランスフォーマー変種を提案する。
提案するTransformerにマルチスケールパッチを組み込んだマルチブランチアーキテクチャを導入する。
Taylor式(MB-TaylorFormer)により拡張されたMulti-branch Transformerと呼ばれる我々のモデルは、パッチ埋め込み段階でより柔軟に粗さを微細な特徴に埋め込むことができ、計算コストに制限のある長距離画素相互作用を捉えることができる。
論文 参考訳(メタデータ) (2023-08-27T08:10:23Z) - Taylorformer: Probabilistic Modelling for Random Processes including Time Series [0.0]
時系列などのランダムなプロセスに対してTaylorformerを提案する。
1) ニューラルネットワークベースの確率モデルで使用するためにTaylor近似を適用するLocalTaylorラッパー,2) ガウス過程の平均予測がコンテキストデータの線形滑らか化にどのように影響するかに触発された方法で予測を行うMHA-Xアテンションブロックである。
論文 参考訳(メタデータ) (2023-05-30T15:50:24Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - VMFormer: End-to-End Video Matting with Transformer [48.97730965527976]
ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。
ビデオマッチングの最近のソリューションは、ディープ畳み込みニューラルネットワーク(CNN)によって支配されている。
ビデオ・マッティングのためのトランスフォーマー・ベース・エンド・ツー・エンド方式であるVMFormerを提案する。
論文 参考訳(メタデータ) (2022-08-26T17:51:02Z) - VPTR: Efficient Transformers for Video Prediction [14.685237010856953]
本稿では,効率的な局所的空間的時間的分離注意機構に基づく,映像の将来のフレーム予測のためのトランスフォーマーブロックを提案する。
この新しいトランスフォーマーブロックに基づいて,トランスフォーマーの完全自己回帰映像フレーム予測を提案する。
自動回帰ビデオ予測変換器も提案され、推論速度を向上し、自己回帰ビデオの累積推論誤差を低減する。
論文 参考訳(メタデータ) (2022-03-29T18:09:09Z) - Transforming Model Prediction for Tracking [109.08417327309937]
トランスフォーマーは、誘導バイアスの少ないグローバルな関係を捉え、より強力なターゲットモデルの予測を学ぶことができる。
提案したトラッカーをエンドツーエンドにトレーニングし、複数のトラッカーデータセットに関する総合的な実験を行うことで、その性能を検証する。
我々のトラッカーは3つのベンチマークで新しい技術状態を設定し、挑戦的なLaSOTデータセットで68.5%のAUCを達成した。
論文 参考訳(メタデータ) (2022-03-21T17:59:40Z) - Taylor Swift: Taylor Driven Temporal Modeling for Swift Future Frame
Prediction [22.57791389884491]
与えられた入力ビデオに対してTaylor系列の高次項を推定することを学ぶ新しい畳み込みニューラルネットワークであるTayloSwiftNetを紹介する。
TayloSwiftNetは、1つのフォワードパスで任意の将来のフレームを素早く予測し、オンザフライで時間分解能を変更することができる。
論文 参考訳(メタデータ) (2021-10-27T12:46:17Z) - A Log-likelihood Regularized KL Divergence for Video Prediction with A
3D Convolutional Variational Recurrent Network [17.91970304953206]
フレーム予測のタスクに対して,リカレントネットワークを2つの方法で拡張する新しい変分モデルを提案する。
まず、将来の予測フレームのリカレントモデル、シーケンス入力、各時間ステップでの映像フレーム出力を含む全モジュールに3次元畳み込みを導入する。
第2に,変分モデルで一般的に用いられるklに加えて,最大確率推定を導入することにより,変分モデルの潜在損失予測を強化する。
論文 参考訳(メタデータ) (2020-12-11T05:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。