論文の概要: DETRPose: Real-time end-to-end transformer model for multi-person pose estimation
- arxiv url: http://arxiv.org/abs/2506.13027v1
- Date: Mon, 16 Jun 2025 01:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.302401
- Title: DETRPose: Real-time end-to-end transformer model for multi-person pose estimation
- Title(参考訳): DETRPose:多人数ポーズ推定のためのリアルタイムエンドツーエンド変換モデル
- Authors: Sebastian Janampa, Marios Pattichis,
- Abstract要約: マルチパーソンポーズ推定(MPPE)は、画像に存在するすべての個人に対するキーポイントを推定する。
本稿では,MPPEをリアルタイムに実行可能なトランスフォーマーモデル群を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-person pose estimation (MPPE) estimates keypoints for all individuals present in an image. MPPE is a fundamental task for several applications in computer vision and virtual reality. Unfortunately, there are currently no transformer-based models that can perform MPPE in real time. The paper presents a family of transformer-based models capable of performing multi-person 2D pose estimation in real-time. Our approach utilizes a modified decoder architecture and keypoint similarity metrics to generate both positive and negative queries, thereby enhancing the quality of the selected queries within the architecture. Compared to state-of-the-art models, our proposed models train much faster, using 5 to 10 times fewer epochs, with competitive inference times without requiring quantization libraries to speed up the model. Furthermore, our proposed models provide competitive results or outperform alternative models, often using significantly fewer parameters.
- Abstract(参考訳): マルチパーソンポーズ推定(MPPE)は、画像に存在するすべての個人に対するキーポイントを推定する。
MPPEはコンピュータビジョンとバーチャルリアリティーにおけるいくつかのアプリケーションの基本的なタスクである。
残念ながら、MPPEをリアルタイムで実行できるトランスフォーマーベースのモデルはまだ存在しない。
本稿では,マルチパーソン2次元ポーズ推定をリアルタイムに行うことができるトランスフォーマーモデル群を提案する。
提案手法では,修正デコーダアーキテクチャとキーポイント類似度メトリクスを用いて,正と負の両方のクエリを生成し,アーキテクチャ内で選択したクエリの品質を向上させる。
現状のモデルと比較すると,提案モデルは非常に高速で,5~10倍のエポックを減らし,量子化ライブラリを必要とせず,競合推論時間でモデルを高速化する。
さらに,提案したモデルが競合結果や代替モデルよりも優れており,パラメータが大幅に少ない場合が多い。
関連論文リスト
- Towards a Real-Time Simulation of Elastoplastic Deformation Using Multi-Task Neural Networks [0.0]
本研究では, 適切な分解, 長期記憶ネットワーク, マルチタスク学習を組み合わせ, 弾塑性変形をリアルタイムで正確に予測するサロゲート・モデリング・フレームワークを提案する。
このフレームワークは、様々な状態変数に対して0.40%未満の平均絶対誤差を達成する。
我々の場合、事前訓練されたマルチタスクモデルでは、20のサンプルしか持たない追加変数を効果的にトレーニングすることができ、複雑なシナリオの深い理解を示すことができます。
論文 参考訳(メタデータ) (2024-11-08T14:04:17Z) - Practical token pruning for foundation models in few-shot conversational virtual assistant systems [6.986560111427867]
コントラスト学習目標を持つ変圧器に基づく文埋め込みモデルを事前学習し、学習意図分類モデルの特徴としてモデルの埋め込みを利用する。
提案手法は,数ショットのシナリオに対して最先端の結果を達成し,一般的な意図分類ベンチマークにおいて,他の商用ソリューションよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-08-21T17:42:17Z) - UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Real-time Human Detection Model for Edge Devices [0.0]
畳み込みニューラルネットワーク(CNN)は、検出と分類タスクにおいて、従来の特徴抽出と機械学習モデルを置き換える。
最近、リアルタイムタスクのために軽量CNNモデルが導入されている。
本稿では,Raspberry Piのような限られたエッジデバイスに適合するCNNベースの軽量モデルを提案する。
論文 参考訳(メタデータ) (2021-11-20T18:42:17Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。