論文の概要: IntegralAction: Pose-driven Feature Integration for Robust Human Action
Recognition in Videos
- arxiv url: http://arxiv.org/abs/2007.06317v2
- Date: Thu, 15 Apr 2021 07:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:18:23.697155
- Title: IntegralAction: Pose-driven Feature Integration for Robust Human Action
Recognition in Videos
- Title(参考訳): integralaction:ビデオにおけるロバストなヒューマンアクション認識のためのポーズ駆動機能統合
- Authors: Gyeongsik Moon, Heeseung Kwon, Kyoung Mu Lee, Minsu Cho
- Abstract要約: ポーズ駆動機能統合を学習し、その場でポーズ機能を観察して、外観とポーズストリームを動的に組み合わせます。
提案したIntegralActionは,コンテクスト内およびアウト・オブ・コンテクストのアクションビデオデータセット間で高いロバストなパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 94.06960017351574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most current action recognition methods heavily rely on appearance
information by taking an RGB sequence of entire image regions as input. While
being effective in exploiting contextual information around humans, e.g., human
appearance and scene category, they are easily fooled by out-of-context action
videos where the contexts do not exactly match with target actions. In
contrast, pose-based methods, which take a sequence of human skeletons only as
input, suffer from inaccurate pose estimation or ambiguity of human pose per
se. Integrating these two approaches has turned out to be non-trivial; training
a model with both appearance and pose ends up with a strong bias towards
appearance and does not generalize well to unseen videos. To address this
problem, we propose to learn pose-driven feature integration that dynamically
combines appearance and pose streams by observing pose features on the fly. The
main idea is to let the pose stream decide how much and which appearance
information is used in integration based on whether the given pose information
is reliable or not. We show that the proposed IntegralAction achieves highly
robust performance across in-context and out-of-context action video datasets.
The codes are available in https://github.com/mks0601/IntegralAction_RELEASE.
- Abstract(参考訳): 現在のアクション認識手法の多くは、画像領域全体のRGBシーケンスを入力として、外観情報に大きく依存している。
人間の外見やシーンカテゴリなど、人間の周囲のコンテキスト情報を利用するのに効果的であるが、コンテキストがターゲットアクションと正確に一致しない場合、コンテキスト外のアクションビデオによって簡単に騙される。
対照的に、人間の骨格の配列を入力として扱うポーズベース手法は、人間の姿勢の曖昧さや不正確な姿勢推定に苦しむ。
これら2つのアプローチを統合するのは簡単ではないことが判明した; 外観とポーズの両方でモデルを訓練することは、外観に対する強い偏見に終わり、目に見えないビデオにうまく一般化しない。
この問題に対処するため,我々は,外見とストリームを動的に組み合わせたポーズ駆動型機能統合を,その場でポーズ特徴を観察することによって学習することを提案する。
主な考え方は、与えられたポーズ情報が信頼されているか否かに基づいて、どの外観情報が統合で使用されるかを、ポーズストリームに判断させることである。
提案したIntegralActionは,コンテクスト内およびアウト・オブ・コンテクストのアクションビデオデータセット間で高いロバストなパフォーマンスを実現する。
コードはhttps://github.com/mks0601/integralaction_releaseで入手できる。
関連論文リスト
- VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Seeing the Pose in the Pixels: Learning Pose-Aware Representations in
Vision Transformers [1.8047694351309207]
視覚変換器(ViT)におけるポーズ認識表現学習のための2つの戦略を導入する。
Pose-aware Attention Block (PAAB)と呼ばれる最初の方法は、ビデオ内のポーズ領域に局所的な注意を向けるプラグインとプレイのViTブロックである。
第2の方法は Pose-Aware Auxiliary Task (PAAT) と呼ばれ、プライマリなViTタスクと協調して最適化された補助的なポーズ予測タスクを示す。
論文 参考訳(メタデータ) (2023-06-15T17:58:39Z) - PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar
Modeling [30.93155530590843]
提案するPoseVocabは,高忠実度人間の細部をエンコードできる新しいポーズ符号化手法である。
キャラクターのマルチビューRGBビデオが与えられた後、PoseVocabはトレーニングポーズに基づいてキーポーズと潜在埋め込みを構築する。
実験により,本手法は他の最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-25T17:25:36Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z) - Video Pose Distillation for Few-Shot, Fine-Grained Sports Action
Recognition [17.84533144792773]
Video Pose Distillation (VPD)は、新しいビデオドメインの機能を学ぶための弱い教師付きテクニックである。
VPDは、4つの実世界のスポーツビデオデータセットで、いくつかのショット、きめ細かなアクション認識、検索、検出タスクのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2021-09-03T04:36:12Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。