論文の概要: Shuffle Transformer with Feature Alignment for Video Face Parsing
- arxiv url: http://arxiv.org/abs/2106.08650v1
- Date: Wed, 16 Jun 2021 09:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:22:22.809450
- Title: Shuffle Transformer with Feature Alignment for Video Face Parsing
- Title(参考訳): ビデオ顔解析のための特徴アライメント付きシャッフル変換器
- Authors: Rui Zhang, Yang Han, Zilong Huang, Pei Cheng, Guozhong Luo, Gang Yu,
Bin Fu
- Abstract要約: The 3rd Person in Context (PIC) Workshop and Challengeでは,86.9519%のスコアが得られた。
- 参考スコア(独自算出の注目度): 26.10129570777167
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This is a short technical report introducing the solution of the Team
TCParser for Short-video Face Parsing Track of The 3rd Person in Context (PIC)
Workshop and Challenge at CVPR 2021. In this paper, we introduce a strong
backbone which is cross-window based Shuffle Transformer for presenting
accurate face parsing representation. To further obtain the finer segmentation
results, especially on the edges, we introduce a Feature Alignment Aggregation
(FAA) module. It can effectively relieve the feature misalignment issue caused
by multi-resolution feature aggregation. Benefiting from the stronger backbone
and better feature aggregation, the proposed method achieves 86.9519% score in
the Short-video Face Parsing track of the 3rd Person in Context (PIC) Workshop
and Challenge, ranked the first place.
- Abstract(参考訳): CVPR 2021の3番目の人物(PIC)ワークショップとチャレンジのショートビデオ顔解析トラックのためのTCParserのソリューションを紹介する短いテクニカルレポートである。
本稿では,ウィンドウ横断型Shuffle Transformerを用いて,正確な顔解析表現を示す強力なバックボーンを提案する。
さらに細かなセグメンテーション結果(特にエッジ)を得るために,我々はFeature Alignment Aggregation (FAA)モジュールを導入する。
マルチレゾリューション機能アグリゲーションによる特徴調整問題を効果的に解消することができる。
より強固なバックボーンとより優れた機能集約の恩恵を受け、提案手法は第3人組(pic)ワークショップとチャレンジのショートビデオ顔解析トラックにおいて86.9519%のスコアを達成し、第1位にランクインした。
関連論文リスト
- 3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic
Segmentation on VSPW [68.56017675820897]
本稿では,PVUW2023 VSSトラックの3位解について紹介する。
ビデオセマンティックセグメンテーションの課題を解決するために,様々な画像レベルの視覚的バックボーンとセグメンテーションヘッドを探索した。
論文 参考訳(メタデータ) (2023-06-04T07:50:38Z) - Delving Deep into Pixel Alignment Feature for Accurate Multi-view Human
Mesh Recovery [37.57922952189394]
多視点画像から高精度かつ効率的なヒューマンメッシュリカバリを実現するために,Pixel-aligned Feedback Fusion (PaFF) を提案する。
PaFFは、機能の抽出と融合を交互に実行する反復回帰フレームワークである。
本手法の有効性をHuman3.6Mデータセットで総合的アブレーション実験により検証した。
論文 参考訳(メタデータ) (2023-01-15T05:31:52Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - DeViT: Deformed Vision Transformers in Video Inpainting [59.73019717323264]
Deformed Patch-based Homography (DePtH)を導入して、パッチアライメントによる以前のトランスフォーマーを拡張した。
第2に、パッチワイズ機能マッチングを改善するために、Mask Pruning-based Patch Attention (MPPA)を導入する。
第3に、時空間トークンに対する正確な注意を得るために、時空間重み付け適応器(STA)モジュールを導入する。
論文 参考訳(メタデータ) (2022-09-28T08:57:14Z) - Panoptic-PartFormer: Learning a Unified Model for Panoptic Part
Segmentation [76.9420522112248]
Panoptic Part (PPS) は、汎視的セグメンテーションと部分セグメンテーションをひとつのタスクに統合することを目的としている。
そこで我々はPanoptic-PartFormerというエンドツーエンド統合手法を設計した。
私たちのPanoptic-PartFormerは、Cityscapes PPSとPascal Context PPSデータセットの両方で、最先端の新たな結果を実現しています。
論文 参考訳(メタデータ) (2022-04-10T11:16:45Z) - Self-supervised Video-centralised Transformer for Video Face Clustering [58.12996668434134]
本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
論文 参考訳(メタデータ) (2022-03-24T16:38:54Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Semantic Segmentation on VSPW Dataset through Aggregation of Transformer
Models [10.478712332545854]
本報告では,ICCV2021 - Video Scene Parsing in the Wild Challengeのチーム"BetterThing"のソリューションを紹介する。
トランスフォーマーはビデオフレームの特徴を抽出するためのバックボーンとして使用され、最終的な結果は2つのトランスフォーマーモデルSWINとVOLOの出力の集約である。
この解は57.3% mIoUを達成し、ワイルドチャレンジのビデオ・シーン・パーシングでは3位にランクインした。
論文 参考訳(メタデータ) (2021-09-03T05:20:08Z) - Quality-Aware Network for Face Parsing [13.502383048922436]
本報告では, CVPR 2021におけるPICワークショップおよびチャレンジにおける, BUPT-CASIA for Short-video Face Parsing Trackのソリューションについて紹介する。
この研究は、その類似点と相違点を調べるために、最先端の人間構文解析手法を適用している。
我々の応募は86.84%のスコアを獲得し、この挑戦で2位を獲得した。
論文 参考訳(メタデータ) (2021-06-14T12:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。