論文の概要: Human Pose Estimation from Ambiguous Pressure Recordings with
Spatio-temporal Masked Transformers
- arxiv url: http://arxiv.org/abs/2303.05691v1
- Date: Fri, 10 Mar 2023 03:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 16:18:19.130861
- Title: Human Pose Estimation from Ambiguous Pressure Recordings with
Spatio-temporal Masked Transformers
- Title(参考訳): 時空間マスク変圧器を用いたあいまいな圧力記録による人間のポーズ推定
- Authors: Vandad Davoodnia, Ali Etemad
- Abstract要約: あいまいな圧力データからポーズ推定を行う新しい手法を提案する。
2つの人気のある公開データセットに関する詳細な実験により、我々のモデルはこの分野の既存のソリューションより優れていることが判明した。
- 参考スコア(独自算出の注目度): 17.74689944545405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the impressive performance of vision-based pose estimators, they
generally fail to perform well under adverse vision conditions and often don't
satisfy the privacy demands of customers. As a result, researchers have begun
to study tactile sensing systems as an alternative. However, these systems
suffer from noisy and ambiguous recordings. To tackle this problem, we propose
a novel solution for pose estimation from ambiguous pressure data. Our method
comprises a spatio-temporal vision transformer with an encoder-decoder
architecture. Detailed experiments on two popular public datasets reveal that
our model outperforms existing solutions in the area. Moreover, we observe that
increasing the number of temporal crops in the early stages of the network
positively impacts the performance while pre-training the network in a
self-supervised setting using a masked auto-encoder approach also further
improves the results.
- Abstract(参考訳): 視覚ベースのポーズ推定装置の素晴らしいパフォーマンスにもかかわらず、一般的に悪い視覚条件下ではうまく機能せず、しばしば顧客のプライバシー要求を満たさない。
その結果、研究者らは触覚センシングシステムを代替として研究し始めた。
しかし、これらのシステムはノイズとあいまいな記録に苦しむ。
この問題を解決するために,不明瞭な圧力データからポーズ推定を行う新しい手法を提案する。
本手法は,エンコーダ・デコーダアーキテクチャを備えた時空間視覚変換器からなる。
2つの人気のある公開データセットに関する詳細な実験により、我々のモデルはこの分野の既存のソリューションより優れていることが判明した。
さらに,マスキングオートエンコーダアプローチによる自己教師付き設定でネットワークを事前トレーニングしながら,ネットワークの初期段階における時間的作物数の増加がパフォーマンスに正の影響を与えることも観察した。
関連論文リスト
- DragPoser: Motion Reconstruction from Variable Sparse Tracking Signals via Latent Space Optimization [1.5603779307797123]
DragPoserは、新しいディープラーニングベースのモーションリコンストラクションシステムである。
ハードでダイナミックな制約を正確に表現します。
自然なポーズと時間的コヒーレントな動きを生み出す。
論文 参考訳(メタデータ) (2024-04-29T15:00:50Z) - OOSTraj: Out-of-Sight Trajectory Prediction With Vision-Positioning Denoising [49.86409475232849]
軌道予測はコンピュータビジョンと自律運転の基本である。
この分野における既存のアプローチは、しばしば正確で完全な観測データを仮定する。
本稿では,視覚的位置決め技術を利用した視線外軌道予測手法を提案する。
論文 参考訳(メタデータ) (2024-04-02T18:30:29Z) - SpikeReveal: Unlocking Temporal Sequences from Real Blurry Inputs with Spike Streams [44.02794438687478]
スパイクカメラは、動きの特徴を捉え、この不適切な問題を解くのに有効であることが証明されている。
既存の手法は教師付き学習パラダイムに陥り、現実のシナリオに適用した場合、顕著なパフォーマンス劣化に悩まされる。
本研究では,スパイク誘導動作の劣化に対する最初の自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T15:29:09Z) - Develop End-to-End Anomaly Detection System [3.130722489512822]
異常検出は、ネットワークの堅牢性を保証する上で重要な役割を果たす。
本稿では,エンドツーエンドの異常検出モデル開発パイプラインを提案する。
本稿では,新しい予測モデルの導入とベンチマークによるフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2024-02-01T09:02:44Z) - Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文 参考訳(メタデータ) (2023-10-09T20:32:49Z) - An Outlier Exposure Approach to Improve Visual Anomaly Detection
Performance for Mobile Robots [76.36017224414523]
移動ロボットの視覚異常検出システム構築の問題点を考察する。
標準異常検出モデルは、非異常データのみからなる大規模なデータセットを用いて訓練される。
本研究では,これらのデータを利用してリアルNVP異常検出モデルの性能向上を図る。
論文 参考訳(メタデータ) (2022-09-20T15:18:13Z) - On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。
このような測度は、加算画素摂動によっても操作可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T06:43:09Z) - On the Real-World Adversarial Robustness of Real-Time Semantic
Segmentation Models for Autonomous Driving [59.33715889581687]
現実世界の敵対的な例(通常はパッチの形で)の存在は、安全クリティカルなコンピュータビジョンタスクにおけるディープラーニングモデルの使用に深刻な脅威をもたらす。
本稿では,異なる種類の対立パッチを攻撃した場合のセマンティックセグメンテーションモデルのロバスト性を評価する。
画素の誤分類を誘導する攻撃者の能力を改善するために, 新たな損失関数を提案する。
論文 参考訳(メタデータ) (2022-01-05T22:33:43Z) - Transformers predicting the future. Applying attention in next-frame and
time series forecasting [0.0]
繰り返しニューラルネットワークは、最近まで、シーケンス内のタイムリーな依存関係をキャプチャする最良の方法の1つでした。
トランスフォーマーの導入により、RNNのない注意機構しか持たないアーキテクチャが、様々なシーケンス処理タスクの結果を改善することが証明された。
論文 参考訳(メタデータ) (2021-08-18T16:17:29Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。