論文の概要: End-to-End Trainable Multi-Instance Pose Estimation with Transformers
- arxiv url: http://arxiv.org/abs/2103.12115v1
- Date: Mon, 22 Mar 2021 18:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:58:16.812040
- Title: End-to-End Trainable Multi-Instance Pose Estimation with Transformers
- Title(参考訳): トランスフォーマーを用いたエンドツーエンドトレーニング可能なマルチインスタンスポーズ推定
- Authors: Lucas Stoffl and Maxime Vidal and Alexander Mathis
- Abstract要約: 畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
- 参考スコア(独自算出の注目度): 68.93512627479197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new end-to-end trainable approach for multi-instance pose
estimation by combining a convolutional neural network with a transformer. We
cast multi-instance pose estimation from images as a direct set prediction
problem. Inspired by recent work on end-to-end trainable object detection with
transformers, we use a transformer encoder-decoder architecture together with a
bipartite matching scheme to directly regress the pose of all individuals in a
given image. Our model, called POse Estimation Transformer (POET), is trained
using a novel set-based global loss that consists of a keypoint loss, a
keypoint visibility loss, a center loss and a class loss. POET reasons about
the relations between detected humans and the full image context to directly
predict the poses in parallel. We show that POET can achieve high accuracy on
the challenging COCO keypoint detection task. To the best of our knowledge,
this model is the first end-to-end trainable multi-instance human pose
estimation method.
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワークと変圧器を組み合わせたマルチスタンスポーズ推定手法を提案する。
画像から多入力ポーズ推定を直接セット予測問題として提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
検出された人間とフルイメージコンテキストの関係に関するPOETの理由から、ポーズを直接パラレルに予測する。
課題であるCOCOキーポイント検出タスクにおいて,POETが高精度であることを示す。
我々の知る限り、このモデルは最初のエンドツーエンドのトレーニング可能なマルチインスタンス・ヒューマンポーズ推定手法である。
関連論文リスト
- Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - Poseur: Direct Human Pose Regression with Transformers [119.79232258661995]
単一画像からの2次元人間のポーズ推定に対する直接回帰に基づくアプローチを提案する。
私たちのフレームワークはエンドツーエンドの差別化が可能で、キーポイント間の依存関係を自然に活用することを学びます。
我々のアプローチは、最も優れたヒートマップベースのポーズ推定手法と比較して好意的に機能する最初の回帰ベースのアプローチである。
論文 参考訳(メタデータ) (2022-01-19T04:31:57Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformer Transforms Salient Object Detection and Camouflaged Object
Detection [43.79585695098729]
本研究は, トランスネットワークを用いたサルエント物体検出(SOD)に関する研究である。
具体的には、フル教師付きRGBイメージベースSOD、RGB-DイメージペアベースSOD、スクリブル監視による弱い教師付きSODに対して、高密度トランスフォーマーバックボーンを採用する。
拡張として、カモフラージュオブジェクトセグメンテーションのためのカモフラージオブジェクト検出(COD)タスクにも完全に監視されたモデルを適用します。
論文 参考訳(メタデータ) (2021-04-20T17:12:51Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。