論文の概要: A Hybrid Multimodal Deep Learning Framework for Intelligent Fashion Recommendation
- arxiv url: http://arxiv.org/abs/2511.07573v2
- Date: Tue, 18 Nov 2025 20:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.408087
- Title: A Hybrid Multimodal Deep Learning Framework for Intelligent Fashion Recommendation
- Title(参考訳): インテリジェントファッションレコメンデーションのためのハイブリッドマルチモーダルディープラーニングフレームワーク
- Authors: Kamand Kalashi, Babak Teimourpour,
- Abstract要約: 本稿では,ファッションレコメンデーションのためのハイブリッドマルチモーダルディープラーニングフレームワークを提案する。
これは2つの重要なタスクに対処する: 服の互換性予測と補完アイテムの検索である。
提案手法は両タスク間で高い性能を示し,ファッションレコメンデーションのためのマルチモーダル学習の有効性を強調した。
- 参考スコア(独自算出の注目度): 0.8602553195689512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid expansion of online fashion platforms has created an increasing demand for intelligent recommender systems capable of understanding both visual and textual cues. This paper proposes a hybrid multimodal deep learning framework for fashion recommendation that jointly addresses two key tasks: outfit compatibility prediction and complementary item retrieval. The model leverages the visual and textual encoders of the CLIP architecture to obtain joint latent representations of fashion items, which are then integrated into a unified feature vector and processed by a transformer encoder. For compatibility prediction, an "outfit token" is introduced to model the holistic relationships among items, achieving an AUC of 0.95 on the Polyvore dataset. For complementary item retrieval, a "target item token" representing the desired item description is used to retrieve compatible items, reaching an accuracy of 69.24% under the Fill-in-the-Blank (FITB) metric. The proposed approach demonstrates strong performance across both tasks, highlighting the effectiveness of multimodal learning for fashion recommendation.
- Abstract(参考訳): オンラインファッションプラットフォームの急速な拡大は、視覚とテキストの両方を理解することのできるインテリジェントなレコメンデーションシステムへの需要を増大させた。
本稿では,ファッションレコメンデーションのためのハイブリッドなマルチモーダルディープラーニングフレームワークを提案する。
このモデルは、CLIPアーキテクチャの視覚的およびテキスト的エンコーダを利用して、ファッションアイテムのジョイント潜在表現を取得し、統合された特徴ベクトルに統合され、トランスフォーマーエンコーダによって処理される。
互換性予測のために、Polyvoreデータセット上でAUC 0.95を達成することで、アイテム間の全体的関係をモデル化するために、"outfit token"が導入される。
補完的な項目検索には、所望の項目記述を表す「ターゲットアイテムトークン」を使用して互換性のある項目を検索し、Fill-in-the-Blank(FITB)測定値で69.24%の精度に達する。
提案手法は両タスク間で高い性能を示し,ファッションレコメンデーションのためのマルチモーダル学習の有効性を強調した。
関連論文リスト
- Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - Learning to Synthesize Compatible Fashion Items Using Semantic Alignment and Collocation Classification: An Outfit Generation Framework [59.09707044733695]
衣料品全体を合成することを目的とした,新しい衣料品生成フレームワークであるOutfitGANを提案する。
OutfitGANにはセマンティックアライメントモジュールがあり、既存のファッションアイテムと合成アイテムのマッピング対応を特徴付ける。
提案モデルの性能を評価するため,20,000のファッション衣装からなる大規模データセットを構築した。
論文 参考訳(メタデータ) (2025-02-05T12:13:53Z) - Leveraging Weak Cross-Modal Guidance for Coherence Modelling via Iterative Learning [66.28872204574648]
クロスモーダル・コヒーレンス・モデリングは、知的なシステムが情報を整理し構造化するのに不可欠である。
クロスモーダル・コヒーレンス・モデリングに関するこれまでの研究は、目標モーダルのコヒーレンス回復を支援するために、他のモーダルからの順序情報を活用することを試みた。
本報告では,コヒーレンシーに金のラベルを付けることなく,クロスモーダルガイダンスを活用する新しい手法について検討する。
論文 参考訳(メタデータ) (2024-08-01T06:04:44Z) - OutfitTransformer: Learning Outfit Representations for Fashion
Recommendation [6.890771095769622]
本稿では,全項目間の互換性関係を符号化した効果的な衣服レベルの表現を学習するフレームワークであるOutfitTransformerを提案する。
互換性予測のために,グローバルな装束表現を捕捉し,分類損失を用いてフレームワークを訓練するための装束トークンを設計する。
補完的な項目検索のために,対象項目の仕様を考慮に入れたターゲット項目トークンを設計する。
生成されたターゲットアイテムの埋め込みは、残りの服にマッチする互換性のあるアイテムを検索するために使用される。
論文 参考訳(メタデータ) (2022-04-11T00:55:40Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation [22.701371886522494]
マルチモーダルコンテンツに基づく潜在意味的項目-項目構造は,より優れた項目表現を学習する上で有益である,と我々は主張する。
モータリティを意識した構造学習モジュールを考案し,各モータリティの項目間関係を学習する。
論文 参考訳(メタデータ) (2021-11-01T03:37:02Z) - Mining Latent Structures for Multimedia Recommendation [46.70109406399858]
本稿では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
各モダリティの項目構造を学び、複数のモダリティを集約して潜在アイテムグラフを得る。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
論文 参考訳(メタデータ) (2021-04-19T03:50:24Z) - Pre-training Graph Transformer with Multimodal Side Information for
Recommendation [82.4194024706817]
本稿では,項目側情報とその関連性を考慮した事前学習戦略を提案する。
我々はMCNSamplingという新しいサンプリングアルゴリズムを開発し、各項目のコンテキスト近傍を選択する。
The proposed Pre-trained Multimodal Graph Transformer (PMGT) learns item representations with two objectives: 1) graph structure reconstruction, 2) masked node feature reconstruction。
論文 参考訳(メタデータ) (2020-10-23T10:30:24Z) - Learning Diverse Fashion Collocation by Neural Graph Filtering [78.9188246136867]
本稿では,グラフニューラルネットワークを用いて,フレキシブルなファッションアイテムセットをモデル化する新しいファッションコロケーションフレームワークであるNeural Graph Filteringを提案する。
エッジベクトルに対称演算を適用することにより、このフレームワークは様々な入力/出力を許容し、それらの順序に不変である。
提案手法を,Polyvoreデータセット,Polyvore-Dデータセット,Amazon Fashionデータセットの3つの一般的なベンチマークで評価した。
論文 参考訳(メタデータ) (2020-03-11T16:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。