論文の概要: Temporal Interlacing Network
- arxiv url: http://arxiv.org/abs/2001.06499v1
- Date: Fri, 17 Jan 2020 19:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 12:46:43.190565
- Title: Temporal Interlacing Network
- Title(参考訳): 時間的インターレースネットワーク
- Authors: Hao Shao, Shengju Qian, Yu Liu
- Abstract要約: 時間的インターレースネットワーク(TIN)は、時間的特徴を学習するための単純だが強力な演算子である。
TINは、空間表現を過去から未来へインターレースすることで、2種類の情報を融合する。
TINはICCV19 - Multi Moments in Timeで1位を獲得した。
- 参考スコア(独自算出の注目度): 8.876132549551738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For a long time, the vision community tries to learn the spatio-temporal
representation by combining convolutional neural network together with various
temporal models, such as the families of Markov chain, optical flow, RNN and
temporal convolution. However, these pipelines consume enormous computing
resources due to the alternately learning process for spatial and temporal
information. One natural question is whether we can embed the temporal
information into the spatial one so the information in the two domains can be
jointly learned once-only. In this work, we answer this question by presenting
a simple yet powerful operator -- temporal interlacing network (TIN). Instead
of learning the temporal features, TIN fuses the two kinds of information by
interlacing spatial representations from the past to the future, and vice
versa. A differentiable interlacing target can be learned to control the
interlacing process. In this way, a heavy temporal model is replaced by a
simple interlacing operator. We theoretically prove that with a learnable
interlacing target, TIN performs equivalently to the regularized temporal
convolution network (r-TCN), but gains 4% more accuracy with 6x less latency on
6 challenging benchmarks. These results push the state-of-the-art performances
of video understanding by a considerable margin. Not surprising, the ensemble
model of the proposed TIN won the $1^{st}$ place in the ICCV19 - Multi Moments
in Time challenge. Code is made available to facilitate further research at
https://github.com/deepcs233/TIN
- Abstract(参考訳): 長い間、視覚コミュニティは、畳み込みニューラルネットワークとマルコフ連鎖、光フロー、RNN、時間的畳み込みといった様々な時間モデルを組み合わせることで、時空間表現を学習しようとしてきた。
しかし、これらのパイプラインは空間情報と時間情報の交互に学習するプロセスのため、膨大な計算資源を消費する。
1つの自然な疑問は、時間的情報を空間的情報に埋め込むことで、2つの領域の情報は1回だけ学習できるかどうかである。
本稿では,単純で強力な演算子であるtemporal interlacing network (tin)を提案することで,この問題に答える。
時間的特徴を学習する代わりに、TINは空間的表現を過去から未来へインターレースすることで2種類の情報を融合する。
異なるインターレース対象を学習して、インターレースプロセスを制御することができる。
このように、重時間モデルが単純なインターレース作用素に置き換えられる。
理論的には、学習可能なインターレースターゲットでは、TINは正規化された時間畳み込みネットワーク(r-TCN)と同等に動作するが、6つの困難なベンチマークで6倍のレイテンシで精度が向上する。
これらの結果は、ビデオ理解の最先端のパフォーマンスをかなりの差で押し上げる。
当然のことながら、提案されたTINのアンサンブルモデルはICCV19 - Multi Moments in Timeチャレンジで$1^{st}の賞金を獲得した。
コードはhttps://github.com/deepcs233/TINで研究を促進するために公開されている。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - Temporal Aggregation and Propagation Graph Neural Networks for Dynamic
Representation [67.26422477327179]
時間グラフは連続時間を通してノード間の動的相互作用を示す。
本研究では,周辺地域全体と時間的グラフ畳み込みの新たな手法を提案する。
提案するTAP-GNNは,予測性能とオンライン推論遅延の両面で,既存の時間グラフ手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-15T08:17:18Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。
本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。
本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:05:51Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - SITHCon: A neural network robust to variations in input scaling on the
time dimension [0.0]
機械学習では、畳み込みニューラルネットワーク(CNN)はコンピュータビジョンと時間とともに拡張されたパターンの認識の両方に非常に影響を与えている。
本稿では,対数的に分散した時間メモリを用いたSITHCon(Scale-Invariant Temporal History Convolution Network)を提案する。
論文 参考訳(メタデータ) (2021-07-09T18:11:50Z) - Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video
Super-Resolution [4.9136996406481135]
ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。
VSRの鍵となる課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
論文 参考訳(メタデータ) (2021-06-14T06:36:13Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Multivariate Time Series Classification Using Spiking Neural Networks [7.273181759304122]
スパイクニューラルネットワークは低消費電力を可能にするため注目されている。
本稿では,時系列をスパース時空間スパイクパターンに変換する符号化方式を提案する。
空間時間パターンを分類する学習アルゴリズムも提案する。
論文 参考訳(メタデータ) (2020-07-07T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。