論文の概要: Item Region-based Style Classification Network (IRSN): A Fashion Style Classifier Based on Domain Knowledge of Fashion Experts
- arxiv url: http://arxiv.org/abs/2512.20088v1
- Date: Tue, 23 Dec 2025 06:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.771539
- Title: Item Region-based Style Classification Network (IRSN): A Fashion Style Classifier Based on Domain Knowledge of Fashion Experts
- Title(参考訳): アイテム領域に基づくスタイル分類ネットワーク(IRSN):ファッションエキスパートのドメイン知識に基づくファッションスタイル分類器
- Authors: Jinyoung Choi, Youngchae Kwon, Injung Kim,
- Abstract要約: ファッションスタイルを分類するために,アイテム領域に基づくファッションスタイル分類ネットワーク(IRSN)を提案する。
IRSNはアイテム領域プーリング(IRP)を用いて各アイテム領域の特徴を抽出し、個別に解析し、ゲート機能融合(GFF)を用いてそれらを結合する。
実験では、EfficientNet、ConvNeXt、Swin Transformerを含む6つの広く使われているバックボーンにIRSNを適用し、スタイル分類の精度を平均6.9%、最大14.5%改善した。
- 参考スコア(独自算出の注目度): 7.386027762996787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fashion style classification is a challenging task because of the large visual variation within the same style and the existence of visually similar styles. Styles are expressed not only by the global appearance, but also by the attributes of individual items and their combinations. In this study, we propose an item region-based fashion style classification network (IRSN) to effectively classify fashion styles by analyzing item-specific features and their combinations in addition to global features. IRSN extracts features of each item region using item region pooling (IRP), analyzes them separately, and combines them using gated feature fusion (GFF). In addition, we improve the feature extractor by applying a dual-backbone architecture that combines a domain-specific feature extractor and a general feature extractor pre-trained with a large-scale image-text dataset. In experiments, applying IRSN to six widely-used backbones, including EfficientNet, ConvNeXt, and Swin Transformer, improved style classification accuracy by an average of 6.9% and a maximum of 14.5% on the FashionStyle14 dataset and by an average of 7.6% and a maximum of 15.1% on the ShowniqV3 dataset. Visualization analysis also supports that the IRSN models are better than the baseline models at capturing differences between similar style classes.
- Abstract(参考訳): ファッションスタイルの分類は、同じスタイルにおける大きな視覚的変化と、視覚的に類似したスタイルが存在するため、難しい課題である。
スタイルは、グローバルな外観だけでなく、個々のアイテムとその組み合わせの属性によっても表現される。
本研究では,グローバルな特徴に加えて,アイテム固有の特徴とその組み合わせを分析することで,ファッションスタイルを効果的に分類するためのアイテム領域ベースのファッションスタイル分類ネットワーク(IRSN)を提案する。
IRSNはアイテム領域プーリング(IRP)を用いて各アイテム領域の特徴を抽出し、個別に解析し、ゲート機能融合(GFF)を用いてそれらを結合する。
さらに,ドメイン固有の特徴抽出器と大規模画像テキストデータセットを事前学習した一般特徴抽出器を組み合わせたデュアルバックボーンアーキテクチャを適用し,特徴抽出器の改良を行った。
実験では、EfficientNet、ConvNeXt、Swin Transformerを含む6つの広く使われているバックボーンにIRSNを適用することにより、FashionStyle14データセットで平均6.9%、最大14.5%、ShowniqV3データセットで平均7.6%、最大15.1%のスタイル分類精度が改善された。
ビジュアライゼーション分析は、IRSNモデルが類似のスタイルクラスの違いを捉える上で、ベースラインモデルよりも優れていることもサポートする。
関連論文リスト
- Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions [24.596929878045568]
我々は,視覚言語モデル(VLM)を「バグレベル」の画像テキスト管理で訓練する手法を開発した。
我々は,大規模言語モデル(LLM)によって生成されたカテゴリと,豊富な,きめ細かい画像分類データセットを用いて記述する。
以上の結果から,地理的先行は視覚的外観と同等に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-04T08:39:13Z) - Attribute-Guided Multi-Level Attention Network for Fine-Grained Fashion Retrieval [27.751399400911932]
本稿では,細粒度ファッション検索のための属性誘導型マルチレベルアテンションネットワーク(AG-MAN)を提案する。
具体的には、まず事前訓練された特徴抽出器を拡張し、マルチレベル画像埋め込みをキャプチャする。
そこで本研究では,同じ属性を持つ画像と異なる値を持つ画像とを同一のクラスに分類する分類手法を提案する。
論文 参考訳(メタデータ) (2022-12-27T05:28:38Z) - Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。
従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。
我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-07-07T07:41:32Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Fine-Grained Fashion Similarity Prediction by Attribute-Specific
Embedding Learning [71.74073012364326]
ASEN(Attribute-Specific Embedding Network)を提案し、複数の属性固有の埋め込みを共同学習する。
提案したASENはグローバルブランチとローカルブランチで構成されている。
ファッション関連データセットであるFashionAI、DARN、DeepFashionの3つの実験は、ファッション類似性予測におけるASENの有効性を示している。
論文 参考訳(メタデータ) (2021-04-06T11:26:38Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z) - Learning Diverse Fashion Collocation by Neural Graph Filtering [78.9188246136867]
本稿では,グラフニューラルネットワークを用いて,フレキシブルなファッションアイテムセットをモデル化する新しいファッションコロケーションフレームワークであるNeural Graph Filteringを提案する。
エッジベクトルに対称演算を適用することにより、このフレームワークは様々な入力/出力を許容し、それらの順序に不変である。
提案手法を,Polyvoreデータセット,Polyvore-Dデータセット,Amazon Fashionデータセットの3つの一般的なベンチマークで評価した。
論文 参考訳(メタデータ) (2020-03-11T16:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。