論文の概要: Complex Sequential Understanding through the Awareness of Spatial and
Temporal Concepts
- arxiv url: http://arxiv.org/abs/2006.00212v1
- Date: Sat, 30 May 2020 07:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 17:33:24.541973
- Title: Complex Sequential Understanding through the Awareness of Spatial and
Temporal Concepts
- Title(参考訳): 空間的・時間的概念の認識による複雑なシーケンス理解
- Authors: Bo Pang, Kaiwen Zha, Hanwen Cao, Jiajun Tang, Minghui Yu, Cewu Lu
- Abstract要約: 半結合構造(SCS)は、複雑な空間的および時間的概念学習を分離するディープニューラルネットワークである。
SCSは、暗黙的に入力情報を独立した部分に分離し、これらの部分を処理することができる。
シーケンス対シーケンス問題に対して、セミカップリング構造は、観測された画像に基づいて将来の気象レーダーエコー画像を予測することができる。
- 参考スコア(独自算出の注目度): 44.43414201122335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding sequential information is a fundamental task for artificial
intelligence. Current neural networks attempt to learn spatial and temporal
information as a whole, limited their abilities to represent large scale
spatial representations over long-range sequences. Here, we introduce a new
modeling strategy called Semi-Coupled Structure (SCS), which consists of deep
neural networks that decouple the complex spatial and temporal concepts
learning. Semi-Coupled Structure can learn to implicitly separate input
information into independent parts and process these parts respectively.
Experiments demonstrate that a Semi-Coupled Structure can successfully annotate
the outline of an object in images sequentially and perform video action
recognition. For sequence-to-sequence problems, a Semi-Coupled Structure can
predict future meteorological radar echo images based on observed images. Taken
together, our results demonstrate that a Semi-Coupled Structure has the
capacity to improve the performance of LSTM-like models on large scale
sequential tasks.
- Abstract(参考訳): シーケンシャル情報を理解することは人工知能の基本的な課題である。
現在のニューラルネットワークは、空間的および時間的情報を総合的に学習し、長距離シーケンス上の大規模空間表現を表現する能力を制限する。
本稿では,複雑な空間概念と時間概念を分離する深層ニューラルネットワークからなる半結合構造(scs)と呼ばれる新しいモデリング戦略を提案する。
半結合構造は、入力情報をそれぞれ独立した部分に暗黙的に分離し、これらの部分を処理することができる。
実験により、半結合構造は画像中のオブジェクトの輪郭を逐次的にアノテートし、ビデオアクション認識を行うことができることを示した。
シーケンス対シーケンス問題に対して、セミカップリング構造は、観測された画像に基づいて将来の気象レーダーエコー画像を予測することができる。
その結果, 半結合構造は, 大規模逐次タスクにおけるLSTMのようなモデルの性能を向上させる能力を有することを示した。
関連論文リスト
- The Dynamic Net Architecture: Learning Robust and Holistic Visual Representations Through Self-Organizing Networks [3.9848584845601014]
動的ネットアーキテクチャ(DNA)と呼ばれる新しいインテリジェントシステムアーキテクチャを提案する。
DNAは繰り返し安定化されたネットワークに依存し、それを視覚に応用するために議論する。
論文 参考訳(メタデータ) (2024-07-08T06:22:10Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Disentangling Structured Components: Towards Adaptive, Interpretable and
Scalable Time Series Forecasting [52.47493322446537]
本研究では,時空間パターンの各コンポーネントを個別にモデル化する適応的,解釈可能,スケーラブルな予測フレームワークを開発する。
SCNNは、空間時間パターンの潜在構造を算術的に特徴づける、MSSの事前定義された生成プロセスで動作する。
SCNNが3つの実世界のデータセットの最先端モデルよりも優れた性能を達成できることを示すため、大規模な実験が行われた。
論文 参考訳(メタデータ) (2023-05-22T13:39:44Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z) - Sparse Coding Driven Deep Decision Tree Ensembles for Nuclear
Segmentation in Digital Pathology Images [15.236873250912062]
デジタル病理画像セグメンテーションタスクにおいて、ディープニューラルネットワークと高い競争力を持つ、容易に訓練されながら強力な表現学習手法を提案する。
ScD2TEと略すこの手法はスパースコーディング駆動の深層決定木アンサンブルと呼ばれ、表現学習の新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-13T02:59:31Z) - Interpreting video features: a comparison of 3D convolutional networks
and convolutional LSTM networks [1.462434043267217]
我々は3次元畳み込みネットワークと畳み込みLSTMネットワークが時間依存のフレーム間でどのように特徴を学習するかを比較する。
以上の結果から,3次元畳み込みモデルは入力シーケンス内の短い事象に集中し,空間的焦点を少ない連続した領域に配置することが示唆された。
論文 参考訳(メタデータ) (2020-02-02T11:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。