論文の概要: PE-former: Pose Estimation Transformer
- arxiv url: http://arxiv.org/abs/2112.04981v1
- Date: Thu, 9 Dec 2021 15:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-12-10 17:24:27.534787
- Title: PE-former: Pose Estimation Transformer
- Title(参考訳): pe-former:ポーズ推定トランス
- Authors: Paschalis Panteleris, Antonis Argyros
- Abstract要約: 2次元ボディポーズ推定問題に対する純変圧器アーキテクチャの適用について検討する。
エンコーダ・デコーダ変換器アーキテクチャを用いることで, この推定問題に対して, 技術結果の状態が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformer architectures have been demonstrated to work very
effectively for image classification tasks. Efforts to solve more challenging
vision tasks with transformers rely on convolutional backbones for feature
extraction. In this paper we investigate the use of a pure transformer
architecture (i.e., one with no CNN backbone) for the problem of 2D body pose
estimation. We evaluate two ViT architectures on the COCO dataset. We
demonstrate that using an encoder-decoder transformer architecture yields state
of the art results on this estimation problem.
- Abstract(参考訳): 視覚変換器アーキテクチャは、画像分類タスクに非常に効果的に機能することが示されている。
トランスフォーマーによるより困難な視覚タスクを解決する努力は、特徴抽出のための畳み込みバックボーンに依存している。
本稿では,2次元物体ポーズ推定問題に対する純変圧器アーキテクチャ(cnnバックボーンを持たないもの)の使用について検討する。
我々はCOCOデータセット上で2つのViTアーキテクチャを評価する。
エンコーダ-デコーダトランスフォーマアーキテクチャを用いることで,この推定問題に対する技術結果が得られることを示す。
関連論文リスト
- An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Searching Intrinsic Dimensions of Vision Transformers [6.004704152622424]
我々は,物体検出などの複雑な視覚タスクに対して,視覚変換器のバックボーンを刈り取る方法であるSiDTを提案する。
CIFAR-100とCOCOデータセットの実験は、刈り取られた20%または40%の次元/パラメータを持つバックボーンが、未刈取モデルと同じような、あるいはそれ以上のパフォーマンスを持つことを示した。
論文 参考訳(メタデータ) (2022-04-16T05:16:35Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions [1.1032962642000486]
この作業は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-merge-transformを使用してグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と命名する。
CIFAR-10データセット上で画像分類タスクを行い、COCO 2017データセット上でオブジェクト検出タスクを実行する。
論文 参考訳(メタデータ) (2022-03-02T09:14:28Z) - Dual-Tasks Siamese Transformer Framework for Building Damage Assessment [11.888964682446879]
トランスフォーマーによる損傷評価アーキテクチャ(DamFormer)の設計の試みについて述べる。
我々の知る限り、このような深層トランスフォーマーベースのネットワークがマルチテンポラルリモートセンシングの解釈タスクのために提案されたのは、これが初めてである。
論文 参考訳(メタデータ) (2022-01-26T14:11:16Z) - Swin-Pose: Swin Transformer Based Human Pose Estimation [16.247836509380026]
畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで広く利用されている。
CNNは、固定された受信フィールドを持ち、人間のポーズ推定に不可欠である長距離知覚能力に欠ける。
本稿では,特徴ピラミッド融合構造により拡張されたトランスフォーマーアーキテクチャに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-01-19T02:15:26Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。