論文の概要: PERF-Net: Pose Empowered RGB-Flow Net
- arxiv url: http://arxiv.org/abs/2009.13087v2
- Date: Wed, 20 Oct 2021 00:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 22:09:19.077981
- Title: PERF-Net: Pose Empowered RGB-Flow Net
- Title(参考訳): perf-net: 権限のあるrgb-flow net
- Authors: Yinxiao Li and Zhichao Lu and Xuehan Xiong and Jonathan Huang
- Abstract要約: 入力されたRGBフレームにポーズをレンダリングすることで、各フレームから推定される人間のポーズに基づいて、さらに別のストリームを含めることのメリットを示す。
次に,この新しいポーズストリームと標準RGBと,蒸留技術によるフローベース入力ストリームを組み合わせた新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 19.121241324616307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, many works in the video action recognition literature have
shown that two stream models (combining spatial and temporal input streams) are
necessary for achieving state of the art performance. In this paper we show the
benefits of including yet another stream based on human pose estimated from
each frame -- specifically by rendering pose on input RGB frames. At first
blush, this additional stream may seem redundant given that human pose is fully
determined by RGB pixel values -- however we show (perhaps surprisingly) that
this simple and flexible addition can provide complementary gains. Using this
insight, we then propose a new model, which we dub PERF-Net (short for Pose
Empowered RGB-Flow Net), which combines this new pose stream with the standard
RGB and flow based input streams via distillation techniques and show that our
model outperforms the state-of-the-art by a large margin in a number of human
action recognition datasets while not requiring flow or pose to be explicitly
computed at inference time. The proposed pose stream is also part of the winner
solution of the ActivityNet Kinetics Challenge 2020.
- Abstract(参考訳): 近年,映像行動認識の文献では2つのストリームモデル(空間的および時間的入力ストリームの組み合わせ)が芸術的パフォーマンスの達成に必要であることが示されている。
本稿では、入力されたrgbフレームにポーズをレンダリングすることで、各フレームから推定される人間のポーズに基づく別のストリームを含めることの利点を示す。まず、人間のポーズがrgbピクセル値によって完全に決定されることを考えると、この追加ストリームは冗長に見えるかもしれない。しかし、このシンプルで柔軟な追加によって補足的な利益が得られることを示す。
この知見を用いて, PERF-Net (Pose Empowered RGB-Flow Net の略) を用いた新しいモデルを提案する。このモデルでは, 標準的な RGB と, 蒸留技術によるフローベース入力ストリームを組み合わせることで, フローやポーズが推論時に明示的に計算されるのを必要とせず, 多数の人行動認識データセットにおいて, 最先端のモデルよりも優れていることを示す。
提案されたポーズストリームは、ActivityNet Kinetics Challenge 2020の勝者ソリューションの一部でもある。
関連論文リスト
- Explore Human Parsing Modality for Action Recognition [17.624946657761996]
我々はEnsemble Human Parsing and Pose Network(EPP-Net)と呼ばれる新しいデュアルブランチフレームワークを提案する。
EPP-Netは、スケルトンと人間の解析モダリティの両方を行動認識に利用した最初の企業である。
論文 参考訳(メタデータ) (2024-01-04T08:43:41Z) - Decouple Content and Motion for Conditional Image-to-Video Generation [6.634105805557556]
条件付きイメージ・トゥ・ビデオ(cI2V)生成は、条件、すなわち1つの画像とテキストから始まり、信じられる新しいビデオを作成することである。
従来のcI2V生成法は、従来のRGBピクセル空間において、動きの一貫性と視覚的連続性のモデリングに制限がある。
本稿では,対象のRGB画素を空間的内容と時間的動きの2つの異なる成分に分解する手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:08:27Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Wavelength-based Attributed Deep Neural Network for Underwater Image
Restoration [9.378355457555319]
本稿では,色チャネルの移動範囲に基づいて,適切な受容場サイズ(コンテキスト)を付与することで,大幅な性能向上が期待できることを示す。
第2の新規性として、学習したマルチコンテキスト特徴を適応的に洗練するための注意的スキップ機構を組み込んだ。
提案するフレームワークはDeep WaveNetと呼ばれ、従来のピクセル単位で機能ベースのコスト関数を使って最適化されている。
論文 参考訳(メタデータ) (2021-06-15T06:47:51Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - Creating Artificial Modalities to Solve RGB Liveness [79.9255035557979]
我々は,スプーフ検出のためのエンドツーエンドパイプラインと組み合わせて,ランクプーリングと光流の2種類の人工変換を導入する。
提案手法は, 最大のクロスセクニティ対面アンチスプーフィングデータセットCASIA-SURF CeFA (RGB) の最先端化を実現する。
論文 参考訳(メタデータ) (2020-06-29T13:19:22Z) - A Pose Proposal and Refinement Network for Better Object Pose Estimation [0.5735035463793008]
本稿では,RGB入力で動作する,エンドツーエンドの6Dオブジェクトポーズ推定手法を提案する。
提案するパイプラインは、最先端のRGBベースの手法と競合するランタイム性能より優れています。
論文 参考訳(メタデータ) (2020-04-11T23:13:54Z) - Rethinking Motion Representation: Residual Frames with 3D ConvNets for
Better Action Recognition [43.002621928500425]
本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残りのフレームに置き換えることで、トップ1の精度よりも20.5%と12.5%の改善が達成できる。
残余フレームはオブジェクトの外観に関する情報をほとんど含まないため、さらに2次元畳み込みネットワークを用いて外観特徴を抽出する。
論文 参考訳(メタデータ) (2020-01-16T05:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。