論文の概要: Just Add $\pi$! Pose Induced Video Transformers for Understanding
Activities of Daily Living
- arxiv url: http://arxiv.org/abs/2311.18840v1
- Date: Thu, 30 Nov 2023 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:03:09.328019
- Title: Just Add $\pi$! Pose Induced Video Transformers for Understanding
Activities of Daily Living
- Title(参考訳): 追加は$\pi$!
ポーズ誘発ビデオトランスフォーマによる日常生活活動の理解
- Authors: Dominick Reilly, Srijan Das
- Abstract要約: PI-ViTはビデオトランスフォーマーが学習したRGB表現を2Dと3Dのポーズ情報で拡張する手法である。
$pi$-ViTは、3つの著名なADLデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 9.370655190768163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video transformers have become the de facto standard for human action
recognition, yet their exclusive reliance on the RGB modality still limits
their adoption in certain domains. One such domain is Activities of Daily
Living (ADL), where RGB alone is not sufficient to distinguish between visually
similar actions, or actions observed from multiple viewpoints. To facilitate
the adoption of video transformers for ADL, we hypothesize that the
augmentation of RGB with human pose information, known for its sensitivity to
fine-grained motion and multiple viewpoints, is essential. Consequently, we
introduce the first Pose Induced Video Transformer: PI-ViT (or $\pi$-ViT), a
novel approach that augments the RGB representations learned by video
transformers with 2D and 3D pose information. The key elements of $\pi$-ViT are
two plug-in modules, 2D Skeleton Induction Module and 3D Skeleton Induction
Module, that are responsible for inducing 2D and 3D pose information into the
RGB representations. These modules operate by performing pose-aware auxiliary
tasks, a design choice that allows $\pi$-ViT to discard the modules during
inference. Notably, $\pi$-ViT achieves the state-of-the-art performance on
three prominent ADL datasets, encompassing both real-world and large-scale
RGB-D datasets, without requiring poses or additional computational overhead at
inference.
- Abstract(参考訳): ビデオトランスフォーマーは人間の行動認識のデファクトスタンダードとなっているが、RGBのモダリティへの排他的依存は、特定の領域での採用を制限する。
このような領域の1つは日常生活活動(ADL)であり、RGBだけでは視覚的に類似した行動と複数の視点から観察される行動を区別できない。
ADL用ビデオトランスフォーマーの採用を促進するために,人間のポーズ情報によるRGBの増大は,その微粒な動きや複数の視点に敏感である,という仮説を立てる。
そこで,本研究では,映像トランスフォーマが学習するrgb表現を2次元および3次元ポーズ情報で強化する手法であるpi-vit($\pi$-vit)を提案する。
2dスケルトン誘導モジュールと3dスケルトン誘導モジュールの2つのプラグインモジュールは、2dおよび3dのポーズ情報をrgb表現に誘導する役割を担っている。
これらのモジュールは、推論中に$\pi$-ViTでモジュールを破棄できる設計選択である、ポーズ対応の補助タスクを実行することで動作する。
注目すべきなのは、$\pi$-ViTは、3つの著名なADLデータセットにおける最先端のパフォーマンスを実現し、実際のRGB-Dデータセットと大規模RGB-Dデータセットの両方を含む。
関連論文リスト
- Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion [55.367269556557645]
EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。
オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
論文 参考訳(メタデータ) (2023-12-28T10:05:13Z) - Salient Object Detection in RGB-D Videos [11.805682025734551]
本稿では,データセットとモデルという2つの主要なコントリビューションについて述べる。
現実的な深度を持つ新しいRGB-D VSODデータセットであるRDVSデータセットを構築した。
RGB-D VSODに適した3ストリームネットワークであるDCTNet+を紹介する。
論文 参考訳(メタデータ) (2023-10-24T03:18:07Z) - DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation [76.81628995237058]
DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-18T11:09:11Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - MFEViT: A Robust Lightweight Transformer-based Network for Multimodal
2D+3D Facial Expression Recognition [1.7448845398590227]
視覚変換器(ViT)はその自己保持機構のため、多くの分野で広く応用されている。
我々は,マルチモーダル2D+3D FER,すなわちMFEViTのための,堅牢で軽量な純粋なトランスフォーマーベースネットワークを提案する。
我々のMFEViTは、BU-3DFEで90.83%、Bosphorusで90.28%の精度で最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-09-20T17:19:39Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - VPN++: Rethinking Video-Pose embeddings for understanding Activities of
Daily Living [8.765045867163648]
ポーズ駆動型注意メカニズムの拡張を提案する: Video-Pose Network (VPN)
VPN++は有効であるだけでなく、ノイズの多いPosesに対して高速なアップと高いレジリエンスを提供する。
論文 参考訳(メタデータ) (2021-05-17T20:19:47Z) - Infrared and 3D skeleton feature fusion for RGB-D action recognition [0.30458514384586394]
本稿では,スケルトンと赤外線データを組み合わせたモジュールネットワークを提案する。
2D畳み込みネットワーク(CNN)は、骨格データから特徴を抽出するポーズモジュールとして使用される。
3D CNNは、ビデオから視覚的手がかりを抽出する赤外線モジュールとして使用される。
論文 参考訳(メタデータ) (2020-02-28T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。