論文の概要: Renovating Parsing R-CNN for Accurate Multiple Human Parsing
- arxiv url: http://arxiv.org/abs/2009.09447v1
- Date: Sun, 20 Sep 2020 14:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 13:01:12.978853
- Title: Renovating Parsing R-CNN for Accurate Multiple Human Parsing
- Title(参考訳): 高精度なマルチヒューマンパーシングのためのリノベート・パーシングR-CNN
- Authors: Lu Yang, Qing Song, Zhihui Wang, Mengjie Hu, Chun Liu, Xueshi Xin,
Wenhe Jia, Songcen Xu
- Abstract要約: 複数の人間のパーシングは、様々な人間の部分を分割し、各部分と対応するインスタンスを同時に関連付けることを目的としている。
本稿では,グローバルな意味的拡張機能ピラミッドネットワークと構文再構成ネットワークを導入したRenovating Parsing R-CNN(RP R-CNN)を提案する。
RP R-CNNはCIHPおよびMHP-v2データセットの最先端手法に対して好意的に機能する。
- 参考スコア(独自算出の注目度): 22.191561830523774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple human parsing aims to segment various human parts and associate each
part with the corresponding instance simultaneously. This is a very challenging
task due to the diverse human appearance, semantic ambiguity of different body
parts, and complex background. Through analysis of multiple human parsing task,
we observe that human-centric global perception and accurate instance-level
parsing scoring are crucial for obtaining high-quality results. But the most
state-of-the-art methods have not paid enough attention to these issues. To
reverse this phenomenon, we present Renovating Parsing R-CNN (RP R-CNN), which
introduces a global semantic enhanced feature pyramid network and a parsing
re-scoring network into the existing high-performance pipeline. The proposed RP
R-CNN adopts global semantic representation to enhance multi-scale features for
generating human parsing maps, and regresses a confidence score to represent
its quality. Extensive experiments show that RP R-CNN performs favorably
against state-of-the-art methods on CIHP and MHP-v2 datasets. Code and models
are available at https://github.com/soeaver/RP-R-CNN.
- Abstract(参考訳): 複数の人間のパーシングは、様々な人間の部分を分割し、各部分と対応するインスタンスを同時に関連付けることを目的としている。
これは、さまざまな人間の外観、異なる身体部位のセマンティックなあいまいさ、複雑な背景のため、非常に難しい作業です。
マルチパースタスクの分析を通じて,人間中心のグローバル認知と正確なインスタンスレベルのパーススコア付けが高品質な結果を得るために重要であることを観察する。
しかし、最先端の手法はこれらの問題に十分な注意を払っていない。
この現象を逆転するために,グローバルなセマンティック拡張機能ピラミッドネットワークと構文再構成ネットワークを導入したRenovating Parsing R-CNN (RP R-CNN)を提案する。
提案したRP R-CNNはグローバルな意味表現を採用して,人間の解析マップを生成するマルチスケール機能を強化し,その品質を表すために信頼スコアを回帰する。
大規模な実験により、RP R-CNNはCIHPおよびMHP-v2データセットの最先端手法に対して好意的に機能することが示された。
コードとモデルはhttps://github.com/soeaver/RP-R-CNNで公開されている。
関連論文リスト
- Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Heterogeneous Recurrent Spiking Neural Network for Spatio-Temporal
Classification [13.521272923545409]
Spi Neural Networksは、人工知能の第3波の脳にインスパイアされた学習モデルとしてしばしば評価される。
本稿では,ビデオ認識タスクのための教師なし学習を用いたヘテロジニアススパイキングニューラルネットワーク(HRSNN)を提案する。
本研究では,時間的バックプロパゲーション訓練による教師付きSNNに類似した性能を実現することができるが,少ない計算量で実現可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T16:34:01Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z) - Selfish Sparse RNN Training [13.165729746380816]
本稿では,1回のランでパラメータ数を固定したスパースRNNを,性能を損なうことなく訓練する手法を提案する。
我々はPenn TreeBankとWikitext-2の様々なデータセットを用いて最先端のスパーストレーニング結果を得る。
論文 参考訳(メタデータ) (2021-01-22T10:45:40Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z) - MultiMBNN: Matched and Balanced Causal Inference with Neural Networks [23.588253984635987]
ニューラルネットワークに基づくMultiMBNNを提案し、一般化された確率スコアに基づくマッチングと、バランスの取れた表現を学習することにより、コンバウンディングを克服する。
PEHEを用いて、合成および実世界のデータセットのパフォーマンスをベンチマークし、測定値としてATEよりも絶対的なパーセンテージエラーを平均する。
論文 参考訳(メタデータ) (2020-04-28T11:58:38Z) - When CNNs Meet Random RNNs: Towards Multi-Level Analysis for RGB-D
Object and Scene Recognition [10.796613905980609]
オブジェクトおよびシーン認識タスクのための多モードRGB-D画像から識別的特徴表現を抽出する新しいフレームワークを提案する。
CNNアクティベーションの高次元性に対応するため、ランダムな重み付けプール方式が提案されている。
実験では、RNNステージにおける完全ランダム化構造がCNNアクティベーションを符号化し、識別的ソリッドな特徴を成功させることを確認した。
論文 参考訳(メタデータ) (2020-04-26T10:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。