論文の概要: Seeing the Pose in the Pixels: Learning Pose-Aware Representations in
Vision Transformers
- arxiv url: http://arxiv.org/abs/2306.09331v1
- Date: Thu, 15 Jun 2023 17:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 13:04:57.254948
- Title: Seeing the Pose in the Pixels: Learning Pose-Aware Representations in
Vision Transformers
- Title(参考訳): ピクセルのポーズを見る:視覚トランスフォーマーにおけるポーズ認識表現の学習
- Authors: Dominick Reilly and Aman Chadha and Srijan Das
- Abstract要約: 視覚変換器(ViT)におけるポーズ認識表現学習のための2つの戦略を導入する。
Pose-aware Attention Block (PAAB)と呼ばれる最初の方法は、ビデオ内のポーズ領域に局所的な注意を向けるプラグインとプレイのViTブロックである。
第2の方法は Pose-Aware Auxiliary Task (PAAT) と呼ばれ、プライマリなViTタスクと協調して最適化された補助的なポーズ予測タスクを示す。
- 参考スコア(独自算出の注目度): 1.8047694351309207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human perception of surroundings is often guided by the various poses present
within the environment. Many computer vision tasks, such as human action
recognition and robot imitation learning, rely on pose-based entities like
human skeletons or robotic arms. However, conventional Vision Transformer (ViT)
models uniformly process all patches, neglecting valuable pose priors in input
videos. We argue that incorporating poses into RGB data is advantageous for
learning fine-grained and viewpoint-agnostic representations. Consequently, we
introduce two strategies for learning pose-aware representations in ViTs. The
first method, called Pose-aware Attention Block (PAAB), is a plug-and-play ViT
block that performs localized attention on pose regions within videos. The
second method, dubbed Pose-Aware Auxiliary Task (PAAT), presents an auxiliary
pose prediction task optimized jointly with the primary ViT task. Although
their functionalities differ, both methods succeed in learning pose-aware
representations, enhancing performance in multiple diverse downstream tasks.
Our experiments, conducted across seven datasets, reveal the efficacy of both
pose-aware methods on three video analysis tasks, with PAAT holding a slight
edge over PAAB. Both PAAT and PAAB surpass their respective backbone
Transformers by up to 9.8% in real-world action recognition and 21.8% in
multi-view robotic video alignment. Code is available at
https://github.com/dominickrei/PoseAwareVT.
- Abstract(参考訳): 環境に対する人間の知覚はしばしば環境内に存在する様々なポーズによって導かれる。
人間の行動認識やロボット模倣学習のような多くのコンピュータビジョンタスクは、人間の骨格やロボットアームのようなポーズベースの実体に依存している。
しかし、従来のビジョントランスフォーマー(ViT)モデルはすべてのパッチを均一に処理し、入力ビデオの貴重なポーズを無視する。
rgbデータにポーズを組み込むことは、細部や視点に依存しない表現を学ぶのに有利であると主張する。
その結果,ViTにおけるポーズ認識表現を学習するための2つの戦略が導入された。
Pose-aware Attention Block (PAAB)と呼ばれる最初の方法は、ビデオ内のポーズ領域に局所的な注意を向けるプラグインとプレイのViTブロックである。
第2の方法は Pose-Aware Auxiliary Task (PAAT) と呼ばれ、プライマリなViTタスクと協調して最適化された補助的なポーズ予測タスクを示す。
それらの機能は異なるが、どちらの手法もポーズ認識表現の学習に成功し、複数の下流タスクのパフォーマンスを向上させる。
実験は7つのデータセットにまたがって行われ、PAATがPAABをわずかに上回る3つのビデオ解析タスクにおいて、両方のポーズ認識手法の有効性を明らかにした。
PAATもPAABもそれぞれのバックボーントランスフォーマーを9.8%まで上回り、21.8%のマルチビューロボットビデオアライメントを実現している。
コードはhttps://github.com/dominickrei/poseawarevtで入手できる。
関連論文リスト
- UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing [79.68232381605661]
さまざまなモダリティにまたがって人間のポーズを理解し、生成し、編集するためのフレームワークであるUniPoseを提案する。
具体的には、3Dポーズを個別のポーズトークンに変換するためにポーズトークンライザを適用し、統一語彙内のLCMへのシームレスな統合を可能にする。
統一的な学習戦略から恩恵を受けるUniPoseは、さまざまなポーズ関連タスク間で知識を効果的に伝達し、目に見えないタスクに適応し、拡張された能力を示す。
論文 参考訳(メタデータ) (2024-11-25T08:06:30Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings
for Video Action Recognition [4.36572039512405]
本稿では,ビデオ行動認識のための視覚言語モデル(VLM)について紹介する。
特に、この手法は2つの一般的な人間のビデオ行動認識ベンチマークデータセットにおいて、92.81%と73.02%の精度を達成する。
論文 参考訳(メタデータ) (2023-08-07T20:50:54Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - IntegralAction: Pose-driven Feature Integration for Robust Human Action
Recognition in Videos [94.06960017351574]
ポーズ駆動機能統合を学習し、その場でポーズ機能を観察して、外観とポーズストリームを動的に組み合わせます。
提案したIntegralActionは,コンテクスト内およびアウト・オブ・コンテクストのアクションビデオデータセット間で高いロバストなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-13T11:24:48Z) - Active Perception and Representation for Robotic Manipulation [0.8315801422499861]
本稿では、能動的知覚の利点を利用して操作タスクを遂行するフレームワークを提案する。
我々のエージェントは、視点変化を利用してオブジェクトをローカライズし、状態表現を自己監督的に学習し、ゴール指向のアクションを実行する。
バニラ深度Q-ラーニングアルゴリズムと比較して、我々のモデルは少なくとも4倍のサンプリング効率がある。
論文 参考訳(メタデータ) (2020-03-15T01:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。