論文の概要: ModeRNN: Harnessing Spatiotemporal Mode Collapse in Unsupervised
Predictive Learning
- arxiv url: http://arxiv.org/abs/2110.03882v1
- Date: Fri, 8 Oct 2021 03:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 01:59:27.518606
- Title: ModeRNN: Harnessing Spatiotemporal Mode Collapse in Unsupervised
Predictive Learning
- Title(参考訳): ModeRNN: 教師なし予測学習における時空間モード崩壊のハーネス化
- Authors: Zhiyu Yao, Yunbo Wang, Haixu Wu, Jianmin Wang, Mingsheng Long
- Abstract要約: そこで本研究では,繰り返し状態間の隠れ構造表現を学習するための新しい手法であるModeRNNを提案する。
データセット全体にわたって、異なるモードがスロットの混合に対して異なるレスポンスをもたらすため、ModeRNNが構造化された表現を構築する能力が向上する。
- 参考スコア(独自算出の注目度): 75.2748374360642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning predictive models for unlabeled spatiotemporal data is challenging
in part because visual dynamics can be highly entangled in real scenes, making
existing approaches prone to overfit partial modes of physical processes while
neglecting to reason about others. We name this phenomenon spatiotemporal mode
collapse and explore it for the first time in predictive learning. The key is
to provide the model with a strong inductive bias to discover the compositional
structures of latent modes. To this end, we propose ModeRNN, which introduces a
novel method to learn structured hidden representations between recurrent
states. The core idea of this framework is to first extract various components
of visual dynamics using a set of spatiotemporal slots with independent
parameters. Considering that multiple space-time patterns may co-exist in a
sequence, we leverage learnable importance weights to adaptively aggregate slot
features into a unified hidden representation, which is then used to update the
recurrent states. Across the entire dataset, different modes result in
different responses on the mixtures of slots, which enhances the ability of
ModeRNN to build structured representations and thus prevents the so-called
mode collapse. Unlike existing models, ModeRNN is shown to prevent
spatiotemporal mode collapse and further benefit from learning mixed visual
dynamics.
- Abstract(参考訳): ラベルのない時空間データに対する予測モデルの学習は、視覚のダイナミクスが実際のシーンで非常に絡み合う可能性があるため、既存のアプローチが物理的プロセスの部分的モードを過度にフィットさせやすく、他人の理屈を無視する可能性があるため、難しい部分がある。
この現象を時空間的モード崩壊と命名し,予測学習において初めて探索する。
鍵となるのは、潜在モードの構成構造を発見するための強い帰納的バイアスをモデルに提供することである。
そこで本研究では,繰り返し状態間の隠れ表現を構造化する新しい手法であるModeRNNを提案する。
このフレームワークの中核となる考え方は、独立パラメータを持つ時空間スロットの集合を用いて視覚力学の様々な成分を抽出することである。
複数の時空パターンが連続的に共存する可能性があることを考慮し、学習可能な重みを利用してスロットの特徴を適応的に集約し、再帰状態を更新する。
データセット全体にわたって、異なるモードはスロットの混合に対して異なる応答をもたらすため、ModeRNNが構造化された表現を構築する能力を高め、いわゆるモード崩壊を防ぐ。
既存のモデルとは異なり、ModeRNNは時空間モードの崩壊を防ぎ、混合視覚力学の学習の恩恵を受ける。
関連論文リスト
- Neural Persistence Dynamics [8.197801260302642]
時間発展する点雲のトポロジにおける力学を学習する問題を考察する。
提案したモデル - $textitNeural Persistence Dynamics$ - は、パラメータ回帰タスクの多種多様なセットで最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2024-05-24T17:20:18Z) - Foundational Inference Models for Dynamical Systems [5.549794481031468]
我々は,ODEによって決定されると仮定される時系列データの欠落を補うという古典的な問題に対して,新たな視点を提供する。
本稿では,いくつかの(隠れた)ODEを満たすパラメトリック関数を通じて,ゼロショット時系列計算のための新しい教師付き学習フレームワークを提案する。
我々は,1と同一(事前学習)の認識モデルが,63個の異なる時系列に対してゼロショット計算を行なえることを実証的に実証した。
論文 参考訳(メタデータ) (2024-02-12T11:48:54Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - Anamnesic Neural Differential Equations with Orthogonal Polynomial
Projections [6.345523830122166]
本稿では,長期記憶を強制し,基礎となる力学系の大域的表現を保存する定式化であるPolyODEを提案する。
提案手法は理論的保証に支えられ,過去と将来のデータの再構築において,過去の成果よりも優れていたことを実証する。
論文 参考訳(メタデータ) (2023-03-03T10:49:09Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z) - Predicting Temporal Sets with Deep Neural Networks [50.53727580527024]
本稿では,時間集合予測のためのディープニューラルネットワークに基づく統合解を提案する。
ユニークな視点は、セットレベルの共起グラフを構築することで要素関係を学ぶことである。
我々は,要素や集合の時間依存性を適応的に学習するアテンションベースのモジュールを設計する。
論文 参考訳(メタデータ) (2020-06-20T03:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。