論文の概要: Adaptive Dilated Convolution For Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2107.10477v1
- Date: Thu, 22 Jul 2021 06:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 20:36:45.423544
- Title: Adaptive Dilated Convolution For Human Pose Estimation
- Title(参考訳): 人間の視点推定のための適応的拡張畳み込み
- Authors: Zhengxiong Luo, Zhicheng Wang, Yan Huang, Liang Wang, Tieniu Tan and
Erjin Zhou
- Abstract要約: 適応拡張畳み込み(ADC)により,同じ空間サイズのマルチスケール特徴を生成・融合する。
これにより、ADCは融合スケールを適応的に調整できるため、ADCは様々な人間のサイズに最適化できる。
- 参考スコア(独自算出の注目度): 65.1530164940112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing human pose estimation (HPE) methods exploit multi-scale
information by fusing feature maps of four different spatial sizes, \ie $1/4$,
$1/8$, $1/16$, and $1/32$ of the input image. There are two drawbacks of this
strategy: 1) feature maps of different spatial sizes may be not well aligned
spatially, which potentially hurts the accuracy of keypoint location; 2) these
scales are fixed and inflexible, which may restrict the generalization ability
over various human sizes. Towards these issues, we propose an adaptive dilated
convolution (ADC). It can generate and fuse multi-scale features of the same
spatial sizes by setting different dilation rates for different channels. More
importantly, these dilation rates are generated by a regression module. It
enables ADC to adaptively adjust the fused scales and thus ADC may generalize
better to various human sizes. ADC can be end-to-end trained and easily plugged
into existing methods. Extensive experiments show that ADC can bring consistent
improvements to various HPE methods. The source codes will be released for
further research.
- Abstract(参考訳): 既存のヒトのポーズ推定(HPE)手法は、4つの異なる空間サイズの特徴マップを融合してマルチスケール情報を利用する場合、i:1/4$、1/8$、1/16$、1/32$。
この戦略には2つの欠点がある: 1) 異なる空間サイズの特徴写像は、空間的に不整合であり、キーポイント位置の精度を損なう可能性がある; 2) それらのスケールは固定され、柔軟であり、様々な人間のサイズに対する一般化能力を制限する可能性がある。
これらの課題に対して,適応拡張畳み込み(ADC)を提案する。
異なるチャネルに対して異なるダイレーションレートを設定することで、同じ空間サイズのマルチスケール特徴を生成し、融合することができる。
さらに重要なのは、これらの拡張率は回帰モジュールによって生成されることだ。
これにより、ADCは融合スケールを適応的に調整できるため、ADCは様々な人間のサイズに最適化できる。
ADCはエンドツーエンドでトレーニングでき、既存のメソッドに簡単にプラグインできる。
大規模な実験により、ADCは様々なHPE法に一貫した改善をもたらすことが示されている。
ソースコードは、さらなる研究のためにリリースされます。
関連論文リスト
- Dual-stream Feature Augmentation for Domain Generalization [16.495752769624872]
2つの視点からいくつかのハードな特徴を構築することでDFA(Dual-stream Feature Augmentation)法を提案する。
提案手法は,領域一般化のための最先端性能を実現することができる。
論文 参考訳(メタデータ) (2024-09-07T03:41:05Z) - ODC-SA Net: Orthogonal Direction Enhancement and Scale Aware Network for Polyp Segmentation [0.624976855972012]
ポリプセグメンテーションのための直交方向拡張・スケールアウェアネットワーク(ODC-SAネット)を設計する。
ODCブロックは、転置された長方形畳み込みカーネルを用いて多方向の特徴を抽出することができる。
空間次元およびチャネル次元のスケール変化を強調するため,MSFA機構を提案する。
論文 参考訳(メタデータ) (2024-05-10T02:13:32Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - ScaleFormer: Revisiting the Transformer-based Backbones from a
Scale-wise Perspective for Medical Image Segmentation [16.995195979992015]
医用画像セグメンテーションのための新しいビジョントランスフォーマーベースのバックボーンであるScaleFormerを提案する。
スケールワイド・スケール・イン・スケール・トランスフォーマーは,CNNをベースとした局所的特徴と,トランスフォーマーをベースとしたグローバルなキューをそれぞれのスケールで組み合わせるように設計されている。
簡易かつ効果的な空間認識型大規模変圧器は,複数のスケールで接続領域間で相互作用するように設計されている。
論文 参考訳(メタデータ) (2022-07-29T08:55:00Z) - Delving into the Scale Variance Problem in Object Detection [38.81729426906514]
本稿では,スケール分散問題に対処するマルチスケール畳み込み(MSConv)を提案する。
MSConvは効率的で計算効率が良いが、計算コストは少ない。
単スケールテストでは48.9%のAPが達成し、最先端の手法を超越しています。
論文 参考訳(メタデータ) (2022-06-16T14:52:17Z) - DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders [3.2826250607043796]
トレーニング時に見つからない視点を扱う場合、現在の3Dヒューマンポース推定法は失敗する傾向にあることを示す。
そこで本研究では,高速変動ベイズカプセルルーティングを用いたカプセルオートエンコーダネットワークDECAを提案する。
実験による検証では,視界・視界・視界・視界・視界・視界の両面から,奥行き画像の他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T08:46:15Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。