Fugu-MT 論文翻訳(概要): PERF-Net: Pose Empowered RGB-Flow Net

論文の概要: PERF-Net: Pose Empowered RGB-Flow Net

arxiv url: http://arxiv.org/abs/2009.13087v2
Date: Wed, 20 Oct 2021 00:05:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 22:09:19.077981
Title: PERF-Net: Pose Empowered RGB-Flow Net
Title（参考訳）: perf-net: 権限のあるrgb-flow net
Authors: Yinxiao Li and Zhichao Lu and Xuehan Xiong and Jonathan Huang
Abstract要約: 入力されたRGBフレームにポーズをレンダリングすることで、各フレームから推定される人間のポーズに基づいて、さらに別のストリームを含めることのメリットを示す。次に,この新しいポーズストリームと標準RGBと,蒸留技術によるフローベース入力ストリームを組み合わせた新しいモデルを提案する。
参考スコア（独自算出の注目度）: 19.121241324616307
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, many works in the video action recognition literature have shown that two stream models (combining spatial and temporal input streams) are necessary for achieving state of the art performance. In this paper we show the benefits of including yet another stream based on human pose estimated from each frame -- specifically by rendering pose on input RGB frames. At first blush, this additional stream may seem redundant given that human pose is fully determined by RGB pixel values -- however we show (perhaps surprisingly) that this simple and flexible addition can provide complementary gains. Using this insight, we then propose a new model, which we dub PERF-Net (short for Pose Empowered RGB-Flow Net), which combines this new pose stream with the standard RGB and flow based input streams via distillation techniques and show that our model outperforms the state-of-the-art by a large margin in a number of human action recognition datasets while not requiring flow or pose to be explicitly computed at inference time. The proposed pose stream is also part of the winner solution of the ActivityNet Kinetics Challenge 2020.
Abstract（参考訳）: 近年,映像行動認識の文献では2つのストリームモデル(空間的および時間的入力ストリームの組み合わせ)が芸術的パフォーマンスの達成に必要であることが示されている。本稿では、入力されたrgbフレームにポーズをレンダリングすることで、各フレームから推定される人間のポーズに基づく別のストリームを含めることの利点を示す。まず、人間のポーズがrgbピクセル値によって完全に決定されることを考えると、この追加ストリームは冗長に見えるかもしれない。しかし、このシンプルで柔軟な追加によって補足的な利益が得られることを示す。この知見を用いて, PERF-Net (Pose Empowered RGB-Flow Net の略) を用いた新しいモデルを提案する。このモデルでは, 標準的な RGB と, 蒸留技術によるフローベース入力ストリームを組み合わせることで, フローやポーズが推論時に明示的に計算されるのを必要とせず, 多数の人行動認識データセットにおいて, 最先端のモデルよりも優れていることを示す。提案されたポーズストリームは、ActivityNet Kinetics Challenge 2020の勝者ソリューションの一部でもある。

関連論文リスト

Unleashing the Power of Motion and Depth: A Selective Fusion Strategy for RGB-D Video Salient Object Detection [12.520786332543292]
RGB-Dビデオに健全なオブジェクト検出を適用することは、RGB-D VSODと呼ばれる新しいタスクである。 RGB-D VSOD のための新しい選択型クロスモーダル融合フレームワーク (SMFNet) を提案する。我々は、RDVSとDVisalの両方のデータセット上で、19の最先端モデルに対してSMFNetを包括的に評価する。
論文参考訳（メタデータ） (2025-07-29T14:30:48Z)
Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文参考訳（メタデータ） (2025-01-23T18:55:41Z)
VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文参考訳（メタデータ） (2024-12-28T07:38:23Z)
Explore Human Parsing Modality for Action Recognition [17.624946657761996]
我々はEnsemble Human Parsing and Pose Network(EPP-Net)と呼ばれる新しいデュアルブランチフレームワークを提案する。 EPP-Netは、スケルトンと人間の解析モダリティの両方を行動認識に利用した最初の企業である。
論文参考訳（メタデータ） (2024-01-04T08:43:41Z)
Decouple Content and Motion for Conditional Image-to-Video Generation [6.634105805557556]
条件付きイメージ・トゥ・ビデオ(cI2V)生成は、条件、すなわち1つの画像とテキストから始まり、信じられる新しいビデオを作成することである。従来のcI2V生成法は、従来のRGBピクセル空間において、動きの一貫性と視覚的連続性のモデリングに制限がある。本稿では,対象のRGB画素を空間的内容と時間的動きの2つの異なる成分に分解する手法を提案する。
論文参考訳（メタデータ） (2023-11-24T06:08:27Z)
DNeRV: Modeling Inherent Dynamics via Difference Neural Representation for Videos [53.077189668346705]
映像の差分表現(eRV) 我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。 DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文参考訳（メタデータ） (2023-04-13T13:53:49Z)
FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。 ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文参考訳（メタデータ） (2022-12-13T14:09:32Z)
One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文参考訳（メタデータ） (2022-10-21T17:33:14Z)
Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。 3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-01T08:38:28Z)
Wavelength-based Attributed Deep Neural Network for Underwater Image Restoration [9.378355457555319]
本稿では,色チャネルの移動範囲に基づいて,適切な受容場サイズ(コンテキスト)を付与することで,大幅な性能向上が期待できることを示す。第2の新規性として、学習したマルチコンテキスト特徴を適応的に洗練するための注意的スキップ機構を組み込んだ。提案するフレームワークはDeep WaveNetと呼ばれ、従来のピクセル単位で機能ベースのコスト関数を使って最適化されている。
論文参考訳（メタデータ） (2021-06-15T06:47:51Z)
A Single Stream Network for Robust and Real-time RGB-D Salient Object Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文参考訳（メタデータ） (2020-07-14T04:40:14Z)
Creating Artificial Modalities to Solve RGB Liveness [79.9255035557979]
我々は,スプーフ検出のためのエンドツーエンドパイプラインと組み合わせて,ランクプーリングと光流の2種類の人工変換を導入する。提案手法は, 最大のクロスセクニティ対面アンチスプーフィングデータセットCASIA-SURF CeFA (RGB) の最先端化を実現する。
論文参考訳（メタデータ） (2020-06-29T13:19:22Z)
A Pose Proposal and Refinement Network for Better Object Pose Estimation [0.5735035463793008]
本稿では,RGB入力で動作する,エンドツーエンドの6Dオブジェクトポーズ推定手法を提案する。提案するパイプラインは、最先端のRGBベースの手法と競合するランタイム性能より優れています。
論文参考訳（メタデータ） (2020-04-11T23:13:54Z)
Rethinking Motion Representation: Residual Frames with 3D ConvNets for Better Action Recognition [43.002621928500425]
本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。従来の積み重ねられたRGBフレームを残りのフレームに置き換えることで、トップ1の精度よりも20.5%と12.5%の改善が達成できる。残余フレームはオブジェクトの外観に関する情報をほとんど含まないため、さらに2次元畳み込みネットワークを用いて外観特徴を抽出する。
論文参考訳（メタデータ） (2020-01-16T05:49:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。