論文の概要: Human Action Recognition using Local Two-Stream Convolution Neural
Network Features and Support Vector Machines
- arxiv url: http://arxiv.org/abs/2002.09423v1
- Date: Wed, 19 Feb 2020 17:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 12:49:31.656131
- Title: Human Action Recognition using Local Two-Stream Convolution Neural
Network Features and Support Vector Machines
- Title(参考訳): 局所2ストリーム畳み込みニューラルネットワーク特徴とサポートベクターマシンを用いたヒューマンアクション認識
- Authors: David Torpey and Turgay Celik
- Abstract要約: 本稿では,ビデオにおける人間の行動認識をシンプルかつ効果的に行う方法を提案する。
提案手法は、最先端の3次元畳み込みニューラルネットワークを用いて局所的な外観と運動の特徴を別々に抽出する。
我々は,SVMの利点を実証的に示すために,3つの共通ベンチマークデータセットを広範囲に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a simple yet effective method for human action
recognition in video. The proposed method separately extracts local appearance
and motion features using state-of-the-art three-dimensional convolutional
neural networks from sampled snippets of a video. These local features are then
concatenated to form global representations which are then used to train a
linear SVM to perform the action classification using full context of the
video, as partial context as used in previous works. The videos undergo two
simple proposed preprocessing techniques, optical flow scaling and crop
filling. We perform an extensive evaluation on three common benchmark dataset
to empirically show the benefit of the SVM, and the two preprocessing steps.
- Abstract(参考訳): 本稿では,ビデオにおける人間の行動認識の簡易かつ効果的な方法を提案する。
提案手法は,映像のサンプルスニペットから最先端の3次元畳み込みニューラルネットワークを用いて,局所的出現と運動の特徴を分離して抽出する。
これらの局所的特徴は連結されてグローバル表現を形成し、ビデオの完全なコンテキストを用いてアクション分類を実行するために線形SVMをトレーニングするために使用される。
ビデオでは、光学フロースケーリングと作物の充填という、2つの単純な前処理技術が提案されている。
我々は、SVMの利点と2つの前処理ステップを実証的に示すために、3つの一般的なベンチマークデータセットに対して広範な評価を行う。
関連論文リスト
- A Survey on Backbones for Deep Video Action Recognition [7.3390139372713445]
アクション認識はインタラクティブなメタバースを構築する上で重要な技術である。
本稿では,ディープニューラルネットワークに基づく行動認識手法について概説する。
本論文では、RGBビデオフレームと光フローのモダリティを入力として使用する2ストリームネットワークと、異なる動作情報を抽出しながらRGBのモダリティを直接活用する3D畳み込みネットワークと、自然言語処理からコンピュータビジョンや映像理解へモデルを導入するトランスフォーマーベースの手法の3つの部分について紹介する。
論文 参考訳(メタデータ) (2024-05-09T07:20:36Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Implicit Ray-Transformers for Multi-view Remote Sensing Image
Segmentation [26.726658200149544]
スパースラベル付きRSシーンセマンティックセグメンテーションのためのインプリシティ・ニューラル表現(INR)に基づく「インプリシティ・レイ・トランスフォーマ(IRT)」を提案する。
提案手法は,2段階の学習プロセスを含む。第1段階では,リモートセンシングシーンの色と3次元構造を符号化するために,ニューラルネットワークを最適化する。
第2段階では、ニューラルネットワークの3D特徴と2Dテクスチャ特徴の関係を利用して、より優れた意味表現を学習するレイ変換器を設計する。
論文 参考訳(メタデータ) (2023-03-15T07:05:07Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - CDN-MEDAL: Two-stage Density and Difference Approximation Framework for
Motion Analysis [3.337126420148156]
本稿では,2つの畳み込みニューラルネットワークを用いた2段階変化検出手法を提案する。
筆者らの2段階フレームワークは, 約3.5Kのパラメータを含むが, 複雑な動きパターンに対する迅速な収束は維持されている。
論文 参考訳(メタデータ) (2021-06-07T16:39:42Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。