論文の概要: Fine-Grained Action Detection with RGB and Pose Information using Two
Stream Convolutional Networks
- arxiv url: http://arxiv.org/abs/2302.02755v1
- Date: Mon, 6 Feb 2023 13:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:48:30.828679
- Title: Fine-Grained Action Detection with RGB and Pose Information using Two
Stream Convolutional Networks
- Title(参考訳): 2つのストリーム畳み込みネットワークを用いたrgbおよびポーズ情報を用いたきめ細かい動作検出
- Authors: Leonard Hacker and Finn Bartels and Pierre-Etienne Martin
- Abstract要約: 本稿では,テーブルテニスストロークの分類と検出のための2ストリームネットワークアプローチを提案する。
提案手法は生のRGBデータを利用して,MMPoseツールボックスから計算した情報をポーズする。
我々は脳卒中分類の改善を報告でき、精度は87.3%に達し、検出はベースラインを上回りつつも0.349のIoUと0.110のmAPに到達している。
- 参考スコア(独自算出の注目度): 1.4502611532302039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As participants of the MediaEval 2022 Sport Task, we propose a two-stream
network approach for the classification and detection of table tennis strokes.
Each stream is a succession of 3D Convolutional Neural Network (CNN) blocks
using attention mechanisms. Each stream processes different 4D inputs. Our
method utilizes raw RGB data and pose information computed from MMPose toolbox.
The pose information is treated as an image by applying the pose either on a
black background or on the original RGB frame it has been computed from. Best
performance is obtained by feeding raw RGB data to one stream, Pose + RGB
(PRGB) information to the other stream and applying late fusion on the
features. The approaches were evaluated on the provided TTStroke-21 data sets.
We can report an improvement in stroke classification, reaching 87.3% of
accuracy, while the detection does not outperform the baseline but still
reaches an IoU of 0.349 and mAP of 0.110.
- Abstract(参考訳): MediaEval 2022 Sport Taskの参加者として、テーブルテニスストロークの分類と検出のための2ストリームネットワークアプローチを提案する。
各ストリームはアテンション機構を用いた3次元畳み込みニューラルネットワーク(cnn)ブロックの継承である。
各ストリームは異なる4D入力を処理する。
本手法はmmposeツールボックスから計算した生のrgbデータとポーズ情報を利用する。
ポーズ情報は、黒背景または計算した元のrgbフレームのいずれかにポーズを適用することで画像として処理される。
最高のパフォーマンスは、生のRGBデータを1つのストリームに供給し、Pose + RGB(PRGB)情報を他のストリームに供給し、フィーチャに後期融合を適用することで得られる。
提案手法はTStroke-21データセットで評価された。
我々は脳卒中分類の改善を報告でき、精度は87.3%に達し、検出はベースラインを上回りつつも0.349のIoUと0.110のmAPに到達している。
関連論文リスト
- ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows [60.291277312569285]
本研究では,単一観測値に基づいてNeRF表現を自動的に修正する手法を提案する。
本手法は, 変形を3次元流れ, 特に剛性変換の重み付き線形ブレンディングとして定義する。
また,単一観測によるNeRFシーンの修正問題を探索するための新しいデータセットも導入した。
論文 参考訳(メタデータ) (2024-06-15T07:58:08Z) - SSTFormer: Bridging Spiking Neural Network and Memory Support
Transformer for Frame-Event based Recognition [42.118434116034194]
本稿では,RGBフレームとイベントストリームを同時に融合してパターンを認識することを提案する。
RGB-Eventベースの分類データセットが不足しているため、大規模なPokerEventデータセットも提案する。
論文 参考訳(メタデータ) (2023-08-08T16:15:35Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - Detecting Humans in RGB-D Data with CNNs [14.283154024458739]
深度画像の特徴に基づく新しい融合手法を提案する。
また、3つのチャネルに深度画像をエンコードするだけでなく、分類のための情報も強化する新しい深度符号化方式を提案する。
論文 参考訳(メタデータ) (2022-07-17T03:17:09Z) - TAFNet: A Three-Stream Adaptive Fusion Network for RGB-T Crowd Counting [16.336401175470197]
本稿では,2組のRGBと熱画像を用いた3ストリーム適応型核融合ネットワークTAFNetを提案する。
RGBT-CCデータセットを用いた実験の結果,平均誤差の20%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-02-17T08:43:10Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - GTM: Gray Temporal Model for Video Recognition [2.534039616389072]
ビデオからRGBへの変換プロセスをスキップできるが、チャネル時間モデリングの能力も向上する。
また,計算予算内でのチャネル機能レベルでの時間的関係をキャプチャする1D単位の時空間畳み込み(1D-ICSC)を提案する。
論文 参考訳(メタデータ) (2021-10-20T02:45:48Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。