論文の概要: Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition
- arxiv url: http://arxiv.org/abs/2204.04654v1
- Date: Sun, 10 Apr 2022 11:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:29:59.680206
- Title: Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition
- Title(参考訳): fashionformer:人間のファッションセグメンテーションと認識のためのシンプルで効果的で統一されたベースライン
- Authors: Shilin Xu, Xiangtai Li, Jingbo Wang, Guangliang Cheng, Yunhai Tong,
Dacheng Tao
- Abstract要約: 本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
- 参考スコア(独自算出の注目度): 80.74495836502919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human fashion understanding is one important computer vision task since it
has the comprehensive information that can be used for real-world applications.
In this work, we focus on joint human fashion segmentation and attribute
recognition. Contrary to the previous works that separately model each task as
a multi-head prediction problem, our insight is to bridge these two tasks with
one unified model via vision transformer modeling to benefit each task. In
particular, we introduce the object query for segmentation and the attribute
query for attribute prediction. Both queries and their corresponding features
can be linked via mask prediction. Then we adopt a two-stream query learning
framework to learn the decoupled query representations. For attribute stream,
we design a novel Multi-Layer Rendering module to explore more fine-grained
features. The decoder design shares the same spirits with DETR, thus we name
the proposed method Fahsionformer. Extensive experiments on three human fashion
datasets including Fashionpedia, ModaNet and Deepfashion illustrate the
effectiveness of our approach. In particular, our method with the same backbone
achieve relative 10% improvements than previous works in case of \textit{a
joint metric ( AP$^{\text{mask}}_{\text{IoU+F}_1}$) for both segmentation and
attribute recognition}. To the best of our knowledge, we are the first unified
end-to-end vision transformer framework for human fashion analysis. We hope
this simple yet effective method can serve as a new flexible baseline for
fashion analysis. Code will be available at
https://github.com/xushilin1/FashionFormer.
- Abstract(参考訳): 人間のファッション理解は、現実世界のアプリケーションに使用できる包括的な情報を持っているため、重要なコンピュータビジョンタスクである。
本研究では,人間のファッションセグメンテーションと属性認識の融合に着目した。
従来のマルチヘッド予測問題として各タスクを個別にモデル化する作業とは対照的に,この2つのタスクを視覚トランスフォーマーモデリングによって1つの統一モデルでブリッジすることで,各タスクのメリットを享受する。
特に,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
クエリと対応する機能の両方は、マスク予測を通じてリンクすることができる。
次に,分離した問合せ表現を学習するために,2ストリームの問合せ学習フレームワークを採用する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
デコーダの設計はDETRと同一の精神を持ち、提案手法であるFahsionformerを命名する。
Fashionpedia、ModaNet、Deepfashionを含む3つの人間のファッションデータセットに関する大規模な実験は、我々のアプローチの有効性を示している。
特に、同じバックボーンを持つメソッドは、セグメンテーションと属性認識の両方に対して、 \textit{a joint metric (ap$^{\text{mask}}_{\text{iou+f}_1}$) の場合、以前のものに比べて10%の改善を達成している。
我々の知る限りでは、人間のファッション分析のための最初の統合されたエンドツーエンドのビジョントランスフォーマーフレームワークである。
ファッション分析のための新しいフレキシブルベースラインとして,このシンプルで効果的な方法が期待できる。
コードはhttps://github.com/xushilin1/fashionformerで入手できる。
関連論文リスト
- Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z) - Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。
最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。
本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:19:39Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - Ered: Enhanced Text Representations with Entities and Descriptions [5.977668609935748]
外部知識(エンティティやエンティティ記述など)は、人間がテキストを理解するのに役立つ。
本稿では、微調整段階において、エンティティとエンティティ記述の両方を明示的に含意することを目的としている。
我々は4つの知識指向タスクと2つの共通タスクについて実験を行い、その結果、いくつかのデータセットで新たな最先端を達成できた。
論文 参考訳(メタデータ) (2022-08-18T16:51:16Z) - Mapping the Internet: Modelling Entity Interactions in Complex
Heterogeneous Networks [0.0]
サンプル表現、モデル定義、トレーニングのための汎用性のある統一フレームワークHMill'を提案します。
フレームワークに実装されたモデルによって実現されたすべての関数の集合に対する普遍近似定理の拡張を示す。
このフレームワークを使ってサイバーセキュリティドメインから3つの異なる問題を解決する。
論文 参考訳(メタデータ) (2021-04-19T21:32:44Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Fashionpedia: Ontology, Segmentation, and an Attribute Localization
Dataset [62.77342894987297]
本稿では,インスタンス分割と局所化属性認識を共同で行う新しい属性・マスクRCNNモデルを提案する。
また、Fashionpediaで事前学習したインスタンスセグメンテーションモデルにより、ImageNetの事前学習よりも、他のファッションデータセットの転送学習性能が向上することを示す。
論文 参考訳(メタデータ) (2020-04-26T02:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。