論文の概要: VPN++: Rethinking Video-Pose embeddings for understanding Activities of
Daily Living
- arxiv url: http://arxiv.org/abs/2105.08141v1
- Date: Mon, 17 May 2021 20:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 14:15:39.125049
- Title: VPN++: Rethinking Video-Pose embeddings for understanding Activities of
Daily Living
- Title(参考訳): VPN++: 日常生活のアクティビティを理解するためのビデオパス埋め込みの再考
- Authors: Srijan Das, Rui Dai, Di Yang, Francois Bremond
- Abstract要約: ポーズ駆動型注意メカニズムの拡張を提案する: Video-Pose Network (VPN)
VPN++は有効であるだけでなく、ノイズの多いPosesに対して高速なアップと高いレジリエンスを提供する。
- 参考スコア(独自算出の注目度): 8.765045867163648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many attempts have been made towards combining RGB and 3D poses for the
recognition of Activities of Daily Living (ADL). ADL may look very similar and
often necessitate to model fine-grained details to distinguish them. Because
the recent 3D ConvNets are too rigid to capture the subtle visual patterns
across an action, this research direction is dominated by methods combining RGB
and 3D Poses. But the cost of computing 3D poses from RGB stream is high in the
absence of appropriate sensors. This limits the usage of aforementioned
approaches in real-world applications requiring low latency. Then, how to best
take advantage of 3D Poses for recognizing ADL? To this end, we propose an
extension of a pose driven attention mechanism: Video-Pose Network (VPN),
exploring two distinct directions. One is to transfer the Pose knowledge into
RGB through a feature-level distillation and the other towards mimicking pose
driven attention through an attention-level distillation. Finally, these two
approaches are integrated into a single model, we call VPN++. We show that
VPN++ is not only effective but also provides a high speed up and high
resilience to noisy Poses. VPN++, with or without 3D Poses, outperforms the
representative baselines on 4 public datasets. Code is available at
https://github.com/srijandas07/vpnplusplus.
- Abstract(参考訳): 日常生活活動認識(adl)のためのrgbと3dのポーズを組み合わせる試みが数多く行われている。
ADLは非常によく似ており、識別するためには細かな詳細をモデル化する必要があることが多い。
最近の3D ConvNetは、アクション全体にわたる微妙な視覚パターンを捉えるには厳格すぎるため、この研究の方向性はRGBと3D Posesを組み合わせた手法に支配されている。
しかし、RGBストリームからの3Dポーズの計算コストは、適切なセンサーがなければ高い。
これにより、低レイテンシを必要とする現実世界のアプリケーションでの前述のアプローチの使用が制限される。
ADLの認識に3D Posesを最大限に活用するには?
この目的のために、ポーズ駆動型アテンションメカニズムであるVPN(Video-Pose Network)の拡張を提案し、2つの異なる方向を探索する。
一つは、ポーズ知識を特徴量蒸留によってrgbに移し、もう一つは注意レベル蒸留を通じてポーズ駆動の注意を模倣する。
最後に、これら2つのアプローチは、vpn++と呼ばれる単一のモデルに統合されます。
VPN++は有効であるだけでなく、ノイズの多いPosesに対して高速なアップと高いレジリエンスを提供する。
3D Posesの有無にかかわらず、VPN++は4つの公開データセットで代表ベースラインを上回っている。
コードはhttps://github.com/srijandas07/vpnplusplusで入手できる。
関連論文リスト
- VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - Just Add $\pi$! Pose Induced Video Transformers for Understanding
Activities of Daily Living [9.370655190768163]
PI-ViTはビデオトランスフォーマーが学習したRGB表現を2Dと3Dのポーズ情報で拡張する手法である。
$pi$-ViTは、3つの著名なADLデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T18:59:56Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z) - TANDEM3D: Active Tactile Exploration for 3D Object Recognition [16.548376556543015]
触覚信号を用いた3次元物体認識のための協調学習フレームワークであるTANDEM3Dを提案する。
TANDEM3Dは、PointNet++を使って接触位置と正規値から3Dオブジェクト表現を構築する新しいエンコーダに基づいている。
本手法はシミュレーションで完全に訓練され,実世界の実験で検証される。
論文 参考訳(メタデータ) (2022-09-19T05:54:26Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z) - Tracking People with 3D Representations [78.97070307547283]
ビデオ中の複数の人物を追跡する新しい手法を提案する。
従来の2次元表現を用いたアプローチとは違って,3次元空間における人物の3次元表現を用いる。
これらの環境下での3次元表現は2次元表現よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2021-11-15T16:15:21Z) - VPN: Learning Video-Pose Embedding for Activities of Daily Living [6.719751155411075]
最近の3DNetは、アクション全体で微妙な視覚パターンをキャプチャするには厳格すぎる。
本稿では,ビデオ・テンポラル・ネットワーク(VPN)を提案する。
実験により、VPNは大規模な人間の活動データセット上での行動分類の最先端の結果より優れていることが示された。
論文 参考訳(メタデータ) (2020-07-06T20:39:08Z) - VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild
Environment [80.77351380961264]
複数のカメラビューから複数の人の3Dポーズを推定する手法を提案する。
本稿では,3D空間で動作するエンドツーエンドのソリューションを提案する。
本稿では,各提案の詳細な3次元ポーズを推定するために,Pose Regression Network (PRN)を提案する。
論文 参考訳(メタデータ) (2020-04-13T23:50:01Z) - ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes [93.82668222075128]
RGB-Dシーンに対するImVoteNetと呼ばれる3次元検出アーキテクチャを提案する。
ImVoteNetは、画像に2D票、ポイントクラウドに3D票を投じることに基づいている。
挑戦的なSUN RGB-Dデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-01-29T05:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。