論文の概要: Estimating Human Poses Across Datasets: A Unified Skeleton and Multi-Teacher Distillation Approach
- arxiv url: http://arxiv.org/abs/2405.20084v1
- Date: Thu, 30 May 2024 14:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 14:08:52.122546
- Title: Estimating Human Poses Across Datasets: A Unified Skeleton and Multi-Teacher Distillation Approach
- Title(参考訳): データセット全体における人間の可能性の推定:統一された骨格とマルチ教師蒸留アプローチ
- Authors: Muhammad Saif Ullah Khan, Dhavalkumar Limbachiya, Didier Stricker, Muhammad Zeshan Afzal,
- Abstract要約: 本稿では,多教師による知識蒸留と骨格の統一的表現を融合した新しい手法を提案する。
私たちのネットワークは、それぞれ17と16のキーポイントを含むCOCOとMPIIデータセットで共同でトレーニングされています。
我々のジョイントモデルの平均精度は70.89と76.40で、1つのデータセットでトレーニングし、両方で評価すると53.79と55.78だった。
- 参考スコア(独自算出の注目度): 12.042768320132694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human pose estimation is a key task in computer vision with various applications such as activity recognition and interactive systems. However, the lack of consistency in the annotated skeletons across different datasets poses challenges in developing universally applicable models. To address this challenge, we propose a novel approach integrating multi-teacher knowledge distillation with a unified skeleton representation. Our networks are jointly trained on the COCO and MPII datasets, containing 17 and 16 keypoints, respectively. We demonstrate enhanced adaptability by predicting an extended set of 21 keypoints, 4 (COCO) and 5 (MPII) more than original annotations, improving cross-dataset generalization. Our joint models achieved an average accuracy of 70.89 and 76.40, compared to 53.79 and 55.78 when trained on a single dataset and evaluated on both. Moreover, we also evaluate all 21 predicted points by our two models by reporting an AP of 66.84 and 72.75 on the Halpe dataset. This highlights the potential of our technique to address one of the most pressing challenges in pose estimation research and application - the inconsistency in skeletal annotations.
- Abstract(参考訳): 人間のポーズ推定は、行動認識や対話システムといった様々な用途でコンピュータビジョンにおいて重要なタスクである。
しかしながら、さまざまなデータセットにまたがる注釈付きスケルトンにおける一貫性の欠如は、普遍的に適用可能なモデルを開発する上での課題となっている。
この課題に対処するために,多教師による知識蒸留と骨格の統一的表現を融合した新しい手法を提案する。
私たちのネットワークは、それぞれ17と16のキーポイントを含むCOCOとMPIIデータセットで共同でトレーニングされています。
我々は,21のキーポイント,4(COCO)および5(MPII)の拡張セットをオリジナルアノテーションよりも予測することで適応性を向上し,データセット間の一般化を改善した。
我々のジョイントモデルの平均精度は70.89と76.40で、1つのデータセットでトレーニングし、両方で評価すると53.79と55.78だった。
さらに、Halpeデータセット上でのAPの66.84と72.75を報告することにより、21の予測点を2つのモデルで評価する。
このことは、推定研究と応用における最も急進的な課題の1つ、骨格アノテーションの不整合に対処する我々の技術の可能性を強調します。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Multi-Dataset Multi-Task Learning for COVID-19 Prognosis [25.371798627482065]
胸部X線による新型コロナウイルスの予後を予測できる新しいマルチデータセット・マルチタスク・トレーニング・フレームワークを提案する。
本フレームワークは,重大度スコアを評価することによって,重大度グループを分類するモデルの能力を高めることを仮定する。
論文 参考訳(メタデータ) (2024-05-22T15:57:44Z) - PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for
Vision Transformers [2.954890575035673]
データフリーな量子化は、モデル圧縮におけるデータのプライバシとセキュリティ上の懸念に対処する可能性がある。
最近、PSAQ-ViTは、事前訓練された視覚変換器(ViT)からデータを生成するために、相対値、パッチ類似度を設計している。
本稿では,より正確で汎用的なデータフリー量子化フレームワークであるPSAQ-ViT V2を提案する。
論文 参考訳(メタデータ) (2022-09-13T01:55:53Z) - I^2R-Net: Intra- and Inter-Human Relation Network for Multi-Person Pose
Estimation [30.204633647947293]
マルチパーソン・ポーズ推定のためのイントラ・イントラ・ヒューマン・リレーショナル・ネットワーク(I2R-Net)を提案する。
まず、Human内リレーショナルモジュールは1人で動作し、Human内依存関係をキャプチャすることを目的としている。
第2に、Human間関係モジュールは複数のインスタンス間の関係を考慮し、Human間相互作用のキャプチャに重点を置いている。
論文 参考訳(メタデータ) (2022-06-22T07:44:41Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Whole-Body Human Pose Estimation in the Wild [88.09875133989155]
COCO-WholeBodyは、全体アノテーションでCOCOデータセットを拡張する。
これは人体全体に手動のアノテーションがある最初のベンチマークである。
ZoomNetという名前のシングルネットワークモデルは、完全な人体の階層構造を考慮するために考案された。
論文 参考訳(メタデータ) (2020-07-23T08:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。