論文の概要: UniParser: Multi-Human Parsing with Unified Correlation Representation
Learning
- arxiv url: http://arxiv.org/abs/2310.08984v1
- Date: Fri, 13 Oct 2023 10:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 13:32:25.744904
- Title: UniParser: Multi-Human Parsing with Unified Correlation Representation
Learning
- Title(参考訳): UniParser: 相関表現学習を統一したマルチヒューマンパーシング
- Authors: Jiaming Chu, Lei Jin, Junliang Xing and Jian Zhao
- Abstract要約: 本稿では、インスタンスレベルとカテゴリレベルの表現を3つの重要な側面に統合するUniを紹介する。
UniはMHPv2.0で49.3%AP、CIHPで60.4%APを達成した。
- 参考スコア(独自算出の注目度): 20.07037326604472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-human parsing is an image segmentation task necessitating both
instance-level and fine-grained category-level information. However, prior
research has typically processed these two types of information through
separate branches and distinct output formats, leading to inefficient and
redundant frameworks. This paper introduces UniParser, which integrates
instance-level and category-level representations in three key aspects: 1) we
propose a unified correlation representation learning approach, allowing our
network to learn instance and category features within the cosine space; 2) we
unify the form of outputs of each modules as pixel-level segmentation results
while supervising instance and category features using a homogeneous label
accompanied by an auxiliary loss; and 3) we design a joint optimization
procedure to fuse instance and category representations. By virtual of unifying
instance-level and category-level output, UniParser circumvents manually
designed post-processing techniques and surpasses state-of-the-art methods,
achieving 49.3% AP on MHPv2.0 and 60.4% AP on CIHP. We will release our source
code, pretrained models, and online demos to facilitate future studies.
- Abstract(参考訳): マルチヒューマンパーシング(Multi- Human parsing)は、インスタンスレベルと詳細なカテゴリレベルの情報の両方を必要とするイメージセグメンテーションタスクである。
しかしながら、先行研究は通常、これらの2つのタイプの情報を別々のブランチと別々の出力フォーマットを通じて処理し、非効率で冗長なフレームワークを生み出している。
本稿では、インスタンスレベルとカテゴリレベルの表現を3つの重要な側面に統合するUniParserを紹介する。
1)コサイン空間内のインスタンスやカテゴリの特徴をネットワークで学べる統合された相関表現学習手法を提案する。
2)各モジュールの出力形式を画素レベルのセグメンテーション結果として統一し,補助損失を伴う均質ラベルを用いてインスタンスとカテゴリの特徴を監督する。
3)インスタンスとカテゴリ表現を融合させる共同最適化手法を設計する。
インスタンスレベルの出力とカテゴリレベルの出力を統合することで、UniParserは手動で設計した後処理技術を回避し、最先端の手法を超越し、MHPv2.0では49.3%のAP、CIHPでは60.4%のAPを達成した。
今後の研究を促進するために、ソースコード、トレーニング済みモデル、オンラインデモをリリースします。
関連論文リスト
- Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - MIANet: Aggregating Unbiased Instance and General Information for
Few-Shot Semantic Segmentation [6.053853367809978]
既存の少数ショットセグメンテーション手法はメタラーニング戦略に基づいて,サポートセットからインスタンス知識を抽出する。
本稿では,多情報集約ネットワーク(MIANet)を提案する。
PASCAL-5iとCOCO-20iの実験により、MIANetは優れた性能を示し、新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2023-05-23T09:36:27Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文 参考訳(メタデータ) (2022-08-19T04:54:56Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Learning Category- and Instance-Aware Pixel Embedding for Fast Panoptic
Segmentation [47.26296379603003]
パノプティックセグメンテーション(英: Panoptic segmentation、PS)は、複雑なシーン理解タスクである。
PSの結果は、検出されたインスタンスやモノのクラスに各ピクセルを割り当てることによって、単純に導き出される。
提案手法は,高速な推論速度を示すだけでなく,二段法に匹敵する性能を実現する最初の一段法でもある。
論文 参考訳(メタデータ) (2020-09-28T14:07:50Z) - BriNet: Towards Bridging the Intra-class and Inter-class Gaps in
One-Shot Segmentation [84.2925550033094]
ほとんどショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。
本稿では,クエリの抽出した特徴とサポートイメージのギャップを埋めるフレームワーク BriNet を提案する。
本フレームワークの有効性は,他の競合手法よりも優れる実験結果によって実証された。
論文 参考訳(メタデータ) (2020-08-14T07:45:50Z) - Commonality-Parsing Network across Shape and Appearance for Partially
Supervised Instance Segmentation [71.59275788106622]
そこで本稿では,マスク付分類から新しい分類へ一般化可能な,クラス非依存の共通性について考察する。
本モデルでは,COCOデータセット上のサンプルセグメンテーションにおける部分教師付き設定と少数ショット設定の両方において,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-24T07:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。