論文の概要: Learning spatio-temporal representations with temporal squeeze pooling
- arxiv url: http://arxiv.org/abs/2002.04685v2
- Date: Thu, 13 Jan 2022 00:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 02:32:14.794578
- Title: Learning spatio-temporal representations with temporal squeeze pooling
- Title(参考訳): 時間的スレッションプールを用いた時空間表現の学習
- Authors: Guoxi Huang and Adrian G. Bors
- Abstract要約: 本研究では,ビデオフレームの長いシーケンスから本質的な動き情報を抽出し,それをSqueezed Imagesという名の少数の画像にマッピングする,テンポラル・スキーズ(TS)プーリングという新しいビデオ表現学習手法を提案する。
得られたSqueezed Imagesは、ビデオ分類タスクの最適化に対応して、ビデオフレームから必須の移動情報を含む。
2つのビデオ分類ベンチマークでアーキテクチャを評価し,その結果を最新技術と比較した。
- 参考スコア(独自算出の注目度): 11.746833714322154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new video representation learning method, named
Temporal Squeeze (TS) pooling, which can extract the essential movement
information from a long sequence of video frames and map it into a set of few
images, named Squeezed Images. By embedding the Temporal Squeeze pooling as a
layer into off-the-shelf Convolution Neural Networks (CNN), we design a new
video classification model, named Temporal Squeeze Network (TeSNet). The
resulting Squeezed Images contain the essential movement information from the
video frames, corresponding to the optimization of the video classification
task. We evaluate our architecture on two video classification benchmarks, and
the results achieved are compared to the state-of-the-art.
- Abstract(参考訳): 本稿では,ビデオフレームの長い列から本質的な動き情報を抽出し,それをSqueezed Imagesと呼ばれる少数の画像にマッピングする,テンポラル・スキーズ(TS)プーリングという新しいビデオ表現学習手法を提案する。
層としてのテンポラリスクイーズプールを、既成の畳み込みニューラルネットワーク(cnn)に組み込むことにより、temporal squeeze network(tesnet)と呼ばれる新しいビデオ分類モデルを設計する。
得られたSqueezed Imagesは、ビデオ分類タスクの最適化に対応するビデオフレームから必須の移動情報を含む。
2つのビデオ分類ベンチマークでアーキテクチャを評価し,その結果を最新技術と比較した。
関連論文リスト
- Temporal-Spatial Processing of Event Camera Data via Delay-Loop Reservoir Neural Network [0.11309478649967238]
遅延ループ貯水池ニューラルネットを用いたビデオ処理の先行研究を動機とする予測について検討した。
本稿では,この新たな発見を利用して,イベントカメラ分類のための遅延ループ貯水池ニューラルネットワークの設計をガイドする。
論文 参考訳(メタデータ) (2024-02-12T16:24:13Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Video Content Classification using Deep Learning [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせたモデルを提案する。
モデルは、動画コンテンツの種類を特定し、それらを「アニメーション、ゲーム、自然コンテンツ、フラットコンテンツ」などのカテゴリに分類することができる。
論文 参考訳(メタデータ) (2021-11-27T04:36:17Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。
我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。
Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:43:32Z) - Fine-Grained Instance-Level Sketch-Based Video Retrieval [159.12935292432743]
細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-02-21T18:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。