論文の概要: TATTOO: Training-free AesTheTic-aware Outfit recOmmendation
- arxiv url: http://arxiv.org/abs/2509.23242v1
- Date: Sat, 27 Sep 2025 10:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.118187
- Title: TATTOO: Training-free AesTheTic-aware Outfit recOmmendation
- Title(参考訳): TATTOO:トレーニング不要のAestheic-aware Outfitの修正
- Authors: Yuntian Wu, Xiaonan Hu, Ziqi Zhou, Hao Lu,
- Abstract要約: TATTOOはトレーニング不要のAesTheTic-aware Outfitレコメンデーションアプローチである。
MLLMを用いてまずターゲットイテム記述を生成し、続いてイメージを構造化された審美プロファイルに蒸留するために使用される審美連鎖を生成する。
実世界の評価セットであるAesthetic-100の実験では、TATTOOは既存のトレーニングベース手法と比較して最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 9.087314807392415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The global fashion e-commerce market relies significantly on intelligent and aesthetic-aware outfit-completion tools to promote sales. While previous studies have approached the problem of fashion outfit-completion and compatible-item retrieval, most of them require expensive, task-specific training on large-scale labeled data, and no effort is made to guide outfit recommendation with explicit human aesthetics. In the era of Multimodal Large Language Models (MLLMs), we show that the conventional training-based pipeline could be streamlined to a training-free paradigm, with better recommendation scores and enhanced aesthetic awareness. We achieve this with TATTOO, a Training-free AesTheTic-aware Outfit recommendation approach. It first generates a target-item description using MLLMs, followed by an aesthetic chain-of-thought used to distill the images into a structured aesthetic profile including color, style, occasion, season, material, and balance. By fusing the visual summary of the outfit with the textual description and aesthetics vectors using a dynamic entropy-gated mechanism, candidate items can be represented in a shared embedding space and be ranked accordingly. Experiments on a real-world evaluation set Aesthetic-100 show that TATTOO achieves state-of-the-art performance compared with existing training-based methods. Another standard Polyvore dataset is also used to measure the advanced zero-shot retrieval capability of our training-free method.
- Abstract(参考訳): グローバルなファッションeコマース市場は、販売を促進するための知的で美的な服装補完ツールに大きく依存している。
これまでの研究では、ファッションの服飾補完と互換性のあるイテム検索の問題にアプローチしてきたが、そのほとんどは、大規模ラベル付きデータに対する高価なタスク特化トレーニングを必要としており、露骨な人間の美学で服飾推奨を導く努力はなされていない。
MLLM(Multimodal Large Language Models)の時代には,従来のトレーニングベースパイプラインをトレーニング不要のパラダイムに合理化し,推奨スコアが向上し,審美意識が向上した。
トレーニング不要なAesTheTic-aware OutfitレコメンデーションアプローチであるTATTOOでこれを実現する。
まずMLLMを用いてターゲット・イテム記述を生成し、続いてイメージを色、スタイル、時間、季節、材料、バランスを含む構造化された美的プロファイルに蒸留するために使用される審美的チェーンを作成した。
ダイナミックエントロピーゲート機構を用いて、衣装の視覚的概要をテキスト記述と美学ベクトルと融合することにより、候補項目を共有埋め込み空間に表現し、それに応じてランク付けすることができる。
実世界の評価セットであるAesthetic-100の実験では、TATTOOは既存のトレーニングベース手法と比較して最先端のパフォーマンスを実現している。
また、トレーニング不要な手法の高度なゼロショット検索能力を測定するために、別の標準のPolyvoreデータセットも使用される。
関連論文リスト
- Learning to Synthesize Compatible Fashion Items Using Semantic Alignment and Collocation Classification: An Outfit Generation Framework [59.09707044733695]
衣料品全体を合成することを目的とした,新しい衣料品生成フレームワークであるOutfitGANを提案する。
OutfitGANにはセマンティックアライメントモジュールがあり、既存のファッションアイテムと合成アイテムのマッピング対応を特徴付ける。
提案モデルの性能を評価するため,20,000のファッション衣装からなる大規模データセットを構築した。
論文 参考訳(メタデータ) (2025-02-05T12:13:53Z) - Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference [4.667044856219814]
本稿では,大規模言語モデル(LLM)の表現力を利用した,個人化された衣装推薦手法を提案する。
MLLM(Multimodal Large Language Model)を用いた画像キャプションによる項目記述の視覚的・テキスト的ギャップを橋渡しする。
このフレームワークは、Polyvoreデータセットで評価され、その効果を2つの重要なタスク、すなわちFill-in-the-blankと補完的なアイテム検索で実証する。
論文 参考訳(メタデータ) (2024-09-18T17:15:06Z) - Lost Your Style? Navigating with Semantic-Level Approach for
Text-to-Outfit Retrieval [2.07180164747172]
ファッションレコメンデーションの基盤となるアプローチとして,テキスト・ツー・アウトフィット検索タスクを導入する。
我々のモデルは3つのセマンティックレベル、スタイル、服装で考案され、各レベルがデータを段階的に集約し、一貫性のある服装勧告を形成する。
メリーランド・ポリボアとポリボア・アウトフィットのデータセットを用いて,本手法はテキストビデオ検索タスクにおける最先端モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-11-03T07:23:21Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Semi-Supervised Visual Representation Learning for Fashion Compatibility [17.893627646979038]
そこで本研究では,フライ時に擬陽性で擬陰性な衣服を作成できる半教師付き学習手法を提案する。
トレーニングバッチ内の各ラベル付き服について、ラベル付服の各項目とラベル付品とをマッチングすることにより、擬似アウトフィットを得る。
我々はPolyvore、Polyvore-D、新たに作成した大規模Fashion Outfitsデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-16T15:35:38Z) - Self-supervised Visual Attribute Learning for Fashion Compatibility [71.73414832639698]
トレーニング中にラベルを必要とせずに、色やテクスチャを意識した機能を学ぶことができるSSLフレームワークを提案する。
当社のアプローチは,事前の作業で無視される異なる概念を捉えるために設計された3つの自己教師型タスクから構成される。
当社のアプローチは,異なるデータセット上で高いパフォーマンスを達成しながら,ひとつのデータセットでトレーニングできることを実証して,トランスファーラーニングに使用することができることを示す。
論文 参考訳(メタデータ) (2020-08-01T21:53:22Z) - Learning Diverse Fashion Collocation by Neural Graph Filtering [78.9188246136867]
本稿では,グラフニューラルネットワークを用いて,フレキシブルなファッションアイテムセットをモデル化する新しいファッションコロケーションフレームワークであるNeural Graph Filteringを提案する。
エッジベクトルに対称演算を適用することにより、このフレームワークは様々な入力/出力を許容し、それらの順序に不変である。
提案手法を,Polyvoreデータセット,Polyvore-Dデータセット,Amazon Fashionデータセットの3つの一般的なベンチマークで評価した。
論文 参考訳(メタデータ) (2020-03-11T16:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。