論文の概要: Context-LSTM: a robust classifier for video detection on UCF101
- arxiv url: http://arxiv.org/abs/2203.06610v1
- Date: Sun, 13 Mar 2022 09:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 13:21:49.531405
- Title: Context-LSTM: a robust classifier for video detection on UCF101
- Title(参考訳): Context-LSTM: UCF101上のビデオ検出のための堅牢な分類器
- Authors: Dengshan Li, Rujing Wang
- Abstract要約: ビデオ検出と人間の行動認識は計算に高価であり、モデルを訓練するのに長い時間がかかるかもしれない。
本稿では,ビデオ検出のトレーニング時間とGPUメモリ使用量を削減することを目的として,競合検出精度を実現した。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video detection and human action recognition may be computationally
expensive, and need a long time to train models. In this paper, we were
intended to reduce the training time and the GPU memory usage of video
detection, and achieved a competitive detection accuracy. Other research works
such as Two-stream, C3D, TSN have shown excellent performance on UCF101. Here,
we used a LSTM structure simply for video detection. We used a simple structure
to perform a competitive top-1 accuracy on the entire validation dataset of
UCF101. The LSTM structure is named Context-LSTM, since it may process the deep
temporal features. The Context-LSTM may simulate the human recognition system.
We cascaded the LSTM blocks in PyTorch and connected the cell state flow and
hidden output flow. At the connection of the blocks, we used ReLU, Batch
Normalization, and MaxPooling functions. The Context-LSTM could reduce the
training time and the GPU memory usage, while keeping a state-of-the-art top-1
accuracy on UCF101 entire validation dataset, show a robust performance on
video action detection.
- Abstract(参考訳): ビデオ検出と人間の行動認識は計算コストが高く、モデルを訓練するのに長い時間がかかる。
本稿では,ビデオ検出のトレーニング時間とGPUメモリ使用量を削減することを目的として,競合検出精度を実現した。
Two-stream, C3D, TSNなどの他の研究成果は、UCF101で優れたパフォーマンスを示している。
そこで我々は,ビデオ検出にLSTM構造を用いた。
ucf101の検証データセット全体の競合top-1精度を実現するために,簡単な構造を用いた。
LSTM構造は、深い時間的特徴を処理できるため、Context-LSTMと呼ばれている。
Context-LSTMは人間の認識システムをシミュレートすることができる。
我々はPyTorchのLSTMブロックをカスケードし、細胞状態の流れと隠れ出力の流れを接続した。
ブロックの接続時に、ReLU、バッチ正規化、MaxPooling関数を使用しました。
Context-LSTMはトレーニング時間とGPUメモリ使用量を削減し、UCF101全体の検証データセット上で最先端のトップ1の精度を維持しながら、ビデオアクション検出における堅牢なパフォーマンスを示す。
関連論文リスト
- ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - PolypNextLSTM: A lightweight and fast polyp video segmentation network
using ConvNext and ConvLSTM [40.01199300702993]
PolypNextLSTMは、UNetライクな構造で、ConvNext-Tinyをバックボーンとして、パラメータオーバーヘッドを減らすために、最後の2つのレイヤを戦略的に省略する。
我々の第一の斬新さはPolypNextLSTMであり、パラメータの最もリーンで最速のモデルとして際立っている。
論文 参考訳(メタデータ) (2024-02-18T13:24:48Z) - TF-CLIP: Learning Text-free CLIP for Video-based Person
Re-Identification [60.5843635938469]
ビデオベースのReIDのための一段階のテキストフリーCLIP学習フレームワークTF-CLIPを提案する。
より具体的には、テキスト機能を置き換えるために、アイデンティティ固有のシーケンス機能をCLIPメモリとして抽出する。
提案手法は,MARS,LS-VID,iLIDS-VIDの他の最先端手法よりも優れた結果を示す。
論文 参考訳(メタデータ) (2023-12-15T09:10:05Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Image Classification using Sequence of Pixels [3.04585143845864]
本研究では,繰り返しニューラルネットワークを用いた逐次画像分類法の比較を行った。
本稿では,Long-Short-Term memory(LSTM)やBidirectional Long-Short-Term memory(BiLSTM)アーキテクチャに基づく手法について述べる。
論文 参考訳(メタデータ) (2022-09-23T09:42:44Z) - Motion-Focused Contrastive Learning of Video Representations [94.93666741396444]
動画における動きは、時間とともに変化する変化を巻き込む最も独特な現象であり、ビデオ表現学習の発展に欠かせないものとなっている。
本稿では,このようなデュエットを基礎とみなす動き中心のコントラスト学習(MCL)手法を提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:45Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Sequential Place Learning: Heuristic-Free High-Performance Long-Term
Place Recognition [24.70946979449572]
学習ベースのCNN+LSTMアーキテクチャを開発し、バックプロパゲーションを通じてトレーニングし、視点および外観不変の場所認識を実現します。
我々のモデルは、新しい最先端パフォーマンス標準を設定しながら、15の古典的手法より優れています。
さらに, SPL は 729 km の経路において, 従来の方法よりも 70 倍高速に展開可能であることを示す。
論文 参考訳(メタデータ) (2021-03-02T22:57:43Z) - Temporal Bilinear Encoding Network of Audio-Visual Features at Low
Sampling Rates [7.1273332508471725]
本稿では,映像分類における視聴覚情報の利用について,毎秒1フレームのサンプリングレートで検討する。
音声情報と視覚情報の両方を符号化するためのTBEN(temporal Bilinear Networks)を提案する。
論文 参考訳(メタデータ) (2020-12-18T14:59:34Z) - Noisy-LSTM: Improving Temporal Awareness for Video Semantic Segmentation [29.00635219317848]
本稿では,エンドツーエンドで学習可能なNoisy-LSTMという新しいモデルを提案する。
また,ビデオシーケンスのフレームをノイズに置き換える,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:08:15Z) - Object Tracking through Residual and Dense LSTMs [67.98948222599849]
LSTM(Long Short-Term Memory)リカレントニューラルネットワークに基づくディープラーニングベースのトラッカーが、強力な代替手段として登場した。
DenseLSTMはResidualおよびRegular LSTMより優れ、ニュアンセに対する高いレジリエンスを提供する。
ケーススタディは、他のトラッカーの堅牢性を高めるために残差ベースRNNの採用を支援する。
論文 参考訳(メタデータ) (2020-06-22T08:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。