論文の概要: PERF-Net: Pose Empowered RGB-Flow Net
- arxiv url: http://arxiv.org/abs/2009.13087v2
- Date: Wed, 20 Oct 2021 00:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 22:09:19.077981
- Title: PERF-Net: Pose Empowered RGB-Flow Net
- Title(参考訳): perf-net: 権限のあるrgb-flow net
- Authors: Yinxiao Li and Zhichao Lu and Xuehan Xiong and Jonathan Huang
- Abstract要約: 入力されたRGBフレームにポーズをレンダリングすることで、各フレームから推定される人間のポーズに基づいて、さらに別のストリームを含めることのメリットを示す。
次に,この新しいポーズストリームと標準RGBと,蒸留技術によるフローベース入力ストリームを組み合わせた新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 19.121241324616307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, many works in the video action recognition literature have
shown that two stream models (combining spatial and temporal input streams) are
necessary for achieving state of the art performance. In this paper we show the
benefits of including yet another stream based on human pose estimated from
each frame -- specifically by rendering pose on input RGB frames. At first
blush, this additional stream may seem redundant given that human pose is fully
determined by RGB pixel values -- however we show (perhaps surprisingly) that
this simple and flexible addition can provide complementary gains. Using this
insight, we then propose a new model, which we dub PERF-Net (short for Pose
Empowered RGB-Flow Net), which combines this new pose stream with the standard
RGB and flow based input streams via distillation techniques and show that our
model outperforms the state-of-the-art by a large margin in a number of human
action recognition datasets while not requiring flow or pose to be explicitly
computed at inference time. The proposed pose stream is also part of the winner
solution of the ActivityNet Kinetics Challenge 2020.
- Abstract(参考訳): 近年,映像行動認識の文献では2つのストリームモデル(空間的および時間的入力ストリームの組み合わせ)が芸術的パフォーマンスの達成に必要であることが示されている。
本稿では、入力されたrgbフレームにポーズをレンダリングすることで、各フレームから推定される人間のポーズに基づく別のストリームを含めることの利点を示す。まず、人間のポーズがrgbピクセル値によって完全に決定されることを考えると、この追加ストリームは冗長に見えるかもしれない。しかし、このシンプルで柔軟な追加によって補足的な利益が得られることを示す。
この知見を用いて, PERF-Net (Pose Empowered RGB-Flow Net の略) を用いた新しいモデルを提案する。このモデルでは, 標準的な RGB と, 蒸留技術によるフローベース入力ストリームを組み合わせることで, フローやポーズが推論時に明示的に計算されるのを必要とせず, 多数の人行動認識データセットにおいて, 最先端のモデルよりも優れていることを示す。
提案されたポーズストリームは、ActivityNet Kinetics Challenge 2020の勝者ソリューションの一部でもある。
関連論文リスト
- Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - Explore Human Parsing Modality for Action Recognition [17.624946657761996]
我々はEnsemble Human Parsing and Pose Network(EPP-Net)と呼ばれる新しいデュアルブランチフレームワークを提案する。
EPP-Netは、スケルトンと人間の解析モダリティの両方を行動認識に利用した最初の企業である。
論文 参考訳(メタデータ) (2024-01-04T08:43:41Z) - Decouple Content and Motion for Conditional Image-to-Video Generation [6.634105805557556]
条件付きイメージ・トゥ・ビデオ(cI2V)生成は、条件、すなわち1つの画像とテキストから始まり、信じられる新しいビデオを作成することである。
従来のcI2V生成法は、従来のRGBピクセル空間において、動きの一貫性と視覚的連続性のモデリングに制限がある。
本稿では,対象のRGB画素を空間的内容と時間的動きの2つの異なる成分に分解する手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:08:27Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Wavelength-based Attributed Deep Neural Network for Underwater Image
Restoration [9.378355457555319]
本稿では,色チャネルの移動範囲に基づいて,適切な受容場サイズ(コンテキスト)を付与することで,大幅な性能向上が期待できることを示す。
第2の新規性として、学習したマルチコンテキスト特徴を適応的に洗練するための注意的スキップ機構を組み込んだ。
提案するフレームワークはDeep WaveNetと呼ばれ、従来のピクセル単位で機能ベースのコスト関数を使って最適化されている。
論文 参考訳(メタデータ) (2021-06-15T06:47:51Z) - Creating Artificial Modalities to Solve RGB Liveness [79.9255035557979]
我々は,スプーフ検出のためのエンドツーエンドパイプラインと組み合わせて,ランクプーリングと光流の2種類の人工変換を導入する。
提案手法は, 最大のクロスセクニティ対面アンチスプーフィングデータセットCASIA-SURF CeFA (RGB) の最先端化を実現する。
論文 参考訳(メタデータ) (2020-06-29T13:19:22Z) - A Pose Proposal and Refinement Network for Better Object Pose Estimation [0.5735035463793008]
本稿では,RGB入力で動作する,エンドツーエンドの6Dオブジェクトポーズ推定手法を提案する。
提案するパイプラインは、最先端のRGBベースの手法と競合するランタイム性能より優れています。
論文 参考訳(メタデータ) (2020-04-11T23:13:54Z) - Rethinking Motion Representation: Residual Frames with 3D ConvNets for
Better Action Recognition [43.002621928500425]
本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残りのフレームに置き換えることで、トップ1の精度よりも20.5%と12.5%の改善が達成できる。
残余フレームはオブジェクトの外観に関する情報をほとんど含まないため、さらに2次元畳み込みネットワークを用いて外観特徴を抽出する。
論文 参考訳(メタデータ) (2020-01-16T05:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。