論文の概要: Infrared and 3D skeleton feature fusion for RGB-D action recognition
- arxiv url: http://arxiv.org/abs/2002.12886v1
- Date: Fri, 28 Feb 2020 17:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 02:03:39.296596
- Title: Infrared and 3D skeleton feature fusion for RGB-D action recognition
- Title(参考訳): RGB-D動作認識のための赤外線と3Dスケルトンの特徴
- Authors: Alban Main de Boissiere, Rita Noumeir
- Abstract要約: 本稿では,スケルトンと赤外線データを組み合わせたモジュールネットワークを提案する。
2D畳み込みネットワーク(CNN)は、骨格データから特徴を抽出するポーズモジュールとして使用される。
3D CNNは、ビデオから視覚的手がかりを抽出する赤外線モジュールとして使用される。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A challenge of skeleton-based action recognition is the difficulty to
classify actions with similar motions and object-related actions. Visual clues
from other streams help in that regard. RGB data are sensible to illumination
conditions, thus unusable in the dark. To alleviate this issue and still
benefit from a visual stream, we propose a modular network (FUSION) combining
skeleton and infrared data. A 2D convolutional neural network (CNN) is used as
a pose module to extract features from skeleton data. A 3D CNN is used as an
infrared module to extract visual cues from videos. Both feature vectors are
then concatenated and exploited conjointly using a multilayer perceptron (MLP).
Skeleton data also condition the infrared videos, providing a crop around the
performing subjects and thus virtually focusing the attention of the infrared
module. Ablation studies show that using pre-trained networks on other large
scale datasets as our modules and data augmentation yield considerable
improvements on the action classification accuracy. The strong contribution of
our cropping strategy is also demonstrated. We evaluate our method on the NTU
RGB+D dataset, the largest dataset for human action recognition from depth
cameras, and report state-of-the-art performances.
- Abstract(参考訳): 骨格に基づく行動認識の課題は、類似した動きとオブジェクト関連の行動で行動の分類が難しいことである。
他のストリームからの視覚的なヒントは、その点に役立つ。
RGBデータは照明条件に敏感であり、暗黒では使用できない。
この問題を緩和し、なおもビジュアルストリームの恩恵を受けるために、スケルトンと赤外線データを組み合わせたモジュラーネットワーク(FUSION)を提案する。
2D畳み込みニューラルネットワーク(CNN)は、骨格データから特徴を抽出するポーズモジュールとして使用される。
3D CNNは、ビデオから視覚的手がかりを抽出する赤外線モジュールとして使用される。
両方の特徴ベクトルは、多層パーセプトロン(MLP)を用いて結合して利用される。
スケルトンデータはまた赤外線映像を条件付けし、被写体の周りに作物を提供し、赤外線モジュールの注意を事実上集中させる。
アブレーション研究は、事前訓練されたネットワークを他の大規模データセットのモジュールやデータ拡張として使用することで、アクション分類精度が大幅に向上することを示している。
また,収穫戦略の強い貢献も示された。
奥行きカメラを用いた人間の行動認識のための最大のデータセットであるntu rgb+dデータセットの手法を評価し,最新性能を報告する。
関連論文リスト
- Removal and Selection: Improving RGB-Infrared Object Detection via Coarse-to-Fine Fusion [20.12812979315803]
既存の融合戦略のほとんどは、RGBとIR画像をディープニューラルネットワークに直接入力し、検出性能が劣る。
2つのモダリティの特徴を清浄し、融合させるために、新しい粗大な視点を導入する。
粗大な核融合戦略の有効性を検証するため、除去・選択検出器(RSDet)と呼ばれる新しい物体検出器を構築した。
論文 参考訳(メタデータ) (2024-01-19T14:49:42Z) - Salient Object Detection in RGB-D Videos [11.805682025734551]
本稿では,データセットとモデルという2つの主要なコントリビューションについて述べる。
現実的な深度を持つ新しいRGB-D VSODデータセットであるRDVSデータセットを構築した。
RGB-D VSODに適した3ストリームネットワークであるDCTNet+を紹介する。
論文 参考訳(メタデータ) (2023-10-24T03:18:07Z) - Tensor Factorization for Leveraging Cross-Modal Knowledge in
Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。
我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。
まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文 参考訳(メタデータ) (2023-09-28T16:55:52Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [62.265410865423]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - ChiNet: Deep Recurrent Convolutional Learning for Multimodal Spacecraft
Pose Estimation [3.964047152162558]
本稿では,ランデブーシーケンスからの時間情報を組み込んで,宇宙船の相対的な姿勢を推定する革新的な深層学習パイプラインを提案する。
畳み込みニューラルネットワーク(CNN)バックボーンによって抽出された特徴の処理のために、データのシーケンスをモデル化する上で、LSTM(Long Short-term memory)ユニットのパフォーマンスを活用する。
3つの異なるトレーニング戦略が組み合わさって、特徴学習を容易にし、回帰によるエンドツーエンドのポーズ推定を改善する。
論文 参考訳(メタデータ) (2021-08-23T16:48:58Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Cloud based Scalable Object Recognition from Video Streams using
Orientation Fusion and Convolutional Neural Networks [11.44782606621054]
畳み込みニューラルネットワーク(CNN)は、インテリジェントな視覚オブジェクト認識を行うために広く利用されている。
CNNはいまだに深刻な精度低下、特に照明変動データセットに悩まされている。
視覚オブジェクト認識のための方向融合に基づく新しいCNN手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T07:15:15Z) - MobileSal: Extremely Efficient RGB-D Salient Object Detection [62.04876251927581]
本稿では,効率的なRGB-Dサルエント物体検出(SOD)に焦点を当てた新しいネットワーク,メソッド名を提案する。
RGB-D SODのためのモバイルネットワークの特徴表現能力を強化するために,暗黙的深度復元(IDR)手法を提案する。
IDRとCPRを組み込むことで、7つの挑戦的なRGB-D SODデータセット上のsArtメソッドに対してメソッド名が好ましい。
論文 参考訳(メタデータ) (2020-12-24T04:36:42Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。