論文の概要: VI-Net: View-Invariant Quality of Human Movement Assessment
- arxiv url: http://arxiv.org/abs/2008.04999v1
- Date: Tue, 11 Aug 2020 20:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:04:17.761379
- Title: VI-Net: View-Invariant Quality of Human Movement Assessment
- Title(参考訳): VI-Net:人間の運動評価の視点不変品質
- Authors: Faegheh Sardari, Adeline Paiement, Sion Hannuna, and Majid Mirmehdi
- Abstract要約: 本研究では,骨格データに依存しない人間の動作の質を評価するためのビュー不変手法を提案する。
我々のエンドツーエンドの畳み込みニューラルネットワークは2つの段階から構成されており、まず最初にRGB画像から各関節に対するビュー不変の軌道記述子を生成する。
VI-Netは,2つの視点でのみトレーニングした場合に,横オブジェクトの平均ランク相関が0.66,未知ビューで0.65となることを示す。
- 参考スコア(独自算出の注目度): 2.2361671906678593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a view-invariant method towards the assessment of the quality of
human movements which does not rely on skeleton data. Our end-to-end
convolutional neural network consists of two stages, where at first a
view-invariant trajectory descriptor for each body joint is generated from RGB
images, and then the collection of trajectories for all joints are processed by
an adapted, pre-trained 2D CNN (e.g. VGG-19 or ResNeXt-50) to learn the
relationship amongst the different body parts and deliver a score for the
movement quality. We release the only publicly-available, multi-view,
non-skeleton, non-mocap, rehabilitation movement dataset (QMAR), and provide
results for both cross-subject and cross-view scenarios on this dataset. We
show that VI-Net achieves average rank correlation of 0.66 on cross-subject and
0.65 on unseen views when trained on only two views. We also evaluate the
proposed method on the single-view rehabilitation dataset KIMORE and obtain
0.66 rank correlation against a baseline of 0.62.
- Abstract(参考訳): 本研究では,骨格データに依存しない人間の動作の質を評価するためのビュー不変手法を提案する。
我々のエンドツーエンドの畳み込みニューラルネットワークは、まずRGB画像から各関節のビュー不変軌跡記述子を生成し、その後、適応された2D CNN(例えば、VGG-19やResNeXt-50)によって全ての関節の軌跡の収集処理を行い、異なる身体部位間の関係を学習し、運動品質のスコアを提供する。
公開されているのは,マルチビュー,非スケルトン,非mocap,リハビリテーションムーブメントデータセット(qmar)のみであり,このデータセット上のクロスサブジェクトとクロスビューの両方のシナリオの結果を提供する。
VI-Netは,2つの視点でのみトレーニングした場合に,横オブジェクトの平均ランク相関が0.66,未知ビューで0.65となることを示す。
また,単一視点リハビリテーションデータセット kimore における提案手法を評価し,ベースライン 0.62 に対して 0.66 ランク相関を得た。
関連論文リスト
- Estimating Human Poses Across Datasets: A Unified Skeleton and Multi-Teacher Distillation Approach [12.042768320132694]
本稿では,多教師による知識蒸留と骨格の統一的表現を融合した新しい手法を提案する。
私たちのネットワークは、それぞれ17と16のキーポイントを含むCOCOとMPIIデータセットで共同でトレーニングされています。
我々のジョイントモデルの平均精度は70.89と76.40で、1つのデータセットでトレーニングし、両方で評価すると53.79と55.78だった。
論文 参考訳(メタデータ) (2024-05-30T14:14:39Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - A quality assurance framework for real-time monitoring of deep learning
segmentation models in radiotherapy [3.5752677591512487]
この研究は、品質保証フレームワークを確立するために、心臓のサブ構造セグメンテーションを例として用いている。
心電図(CT)画像と241例の心電図を用いたベンチマークデータセットを収集した。
訓練されたDenoising Autoencoder(DAE)と2つの手動特徴を利用して画像領域シフト検出器を開発した。
Dice similarity coefficient (DSC) を用いて患者ごとのセグメンテーション精度を予測するための回帰モデルを構築した。
論文 参考訳(メタデータ) (2023-05-19T14:51:05Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Rotation Invariance and Extensive Data Augmentation: a strategy for the
Mitosis Domain Generalization (MIDOG) Challenge [1.52292571922932]
我々は,MIDOG 2021コンペティションに参加するための戦略を提示する。
このコンペティションの目的は、目に見えないターゲットスキャナーで取得した画像に対する解の一般化を評価することである。
本稿では,最先端のディープラーニング手法の組み合わせに基づく解を提案する。
論文 参考訳(メタデータ) (2021-09-02T10:09:02Z) - Spatial and Temporal Networks for Facial Expression Recognition in the
Wild Videos [14.760435737320744]
本稿では,ABAW(Affective Behavior Analysis in-the-Wild)コンペティション2021の7つの基本的表現分類法について述べる。
我々のアンサンブルモデルではF1は0.4133、精度は0.6216、最終的な測定値は0.4821であった。
論文 参考訳(メタデータ) (2021-07-12T01:41:23Z) - Routine Clustering of Mobile Sensor Data Facilitates Psychotic Relapse
Prediction in Schizophrenia Patients [2.7423978784152743]
本研究では,連続的マルチモーダル移動センシングデータからリラプス予測タスクへの行動表現を得るために,クラスタリングモデルを開発することを目的とする。
特定されたクラスターは、患者の日常生活に関連する行動傾向と、差し迫った再発に関連する非定型的行動傾向を表わすことができる。
論文 参考訳(メタデータ) (2021-06-22T02:27:45Z) - Involution: Inverting the Inherence of Convolution for Visual
Recognition [72.88582255910835]
本稿では,畳み込みの原理を逆転させることにより,深層ニューラルネットワークの新たな原子操作を提案する。
提案する畳み込み演算子は、視覚認識のための新しい世代のニューラルネットワークを構築するための基本ブロックとして利用することができる。
当社のInvolutionベースのモデルは、ResNet-50を使用した畳み込みベースラインのパフォーマンスを最大1.6%の精度、2.5%と2.4%のバウンディングボックスAP、4.7%は絶対にIoUを意味します。
論文 参考訳(メタデータ) (2021-03-10T18:40:46Z) - Appearance Learning for Image-based Motion Estimation in Tomography [60.980769164955454]
トモグラフィー画像では、取得した信号に擬似逆フォワードモデルを適用することにより、解剖学的構造を再構成する。
患者の動きは、復元過程における幾何学的アライメントを損なうため、運動アーティファクトが生じる。
本研究では,スキャン対象から独立して剛性運動の構造を認識する外観学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-18T09:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。