論文の概要: FashionM3: Multimodal, Multitask, and Multiround Fashion Assistant based on Unified Vision-Language Model
- arxiv url: http://arxiv.org/abs/2504.17826v1
- Date: Thu, 24 Apr 2025 02:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.525594
- Title: FashionM3: Multimodal, Multitask, and Multiround Fashion Assistant based on Unified Vision-Language Model
- Title(参考訳): FashionM3:Unified Vision-Language Modelに基づくマルチモーダル・マルチタスク・マルチラウンドファッションアシスタント
- Authors: Kaicheng Pang, Xingxing Zou, Waikeung Wong,
- Abstract要約: FashionM3は、視覚言語モデルに基づいて構築されたマルチモーダル、マルチタスク、マルチラウンドファッションアシスタントである。
パーソナライズされたレコメンデーション、代替提案、製品イメージ生成、仮想トライオンシミュレーションを提供する。
- 参考スコア(独自算出の注目度): 21.09829815282055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fashion styling and personalized recommendations are pivotal in modern retail, contributing substantial economic value in the fashion industry. With the advent of vision-language models (VLM), new opportunities have emerged to enhance retailing through natural language and visual interactions. This work proposes FashionM3, a multimodal, multitask, and multiround fashion assistant, built upon a VLM fine-tuned for fashion-specific tasks. It helps users discover satisfying outfits by offering multiple capabilities including personalized recommendation, alternative suggestion, product image generation, and virtual try-on simulation. Fine-tuned on the novel FashionRec dataset, comprising 331,124 multimodal dialogue samples across basic, personalized, and alternative recommendation tasks, FashionM3 delivers contextually personalized suggestions with iterative refinement through multiround interactions. Quantitative and qualitative evaluations, alongside user studies, demonstrate FashionM3's superior performance in recommendation effectiveness and practical value as a fashion assistant.
- Abstract(参考訳): ファッションスタイリングとパーソナライズされたレコメンデーションは現代の小売業において重要な役割を担い、ファッション業界でかなりの経済的価値をもたらしている。
視覚言語モデル(VLM)の出現に伴い、自然言語と視覚的相互作用を通じて小売を強化する新たな機会が出現した。
本研究は、ファッション特化タスク用に微調整されたVLM上に構築されたマルチモーダル、マルチタスク、マルチラウンドファッションアシスタントであるFashionM3を提案する。
パーソナライズされたレコメンデーション、代替提案、製品画像生成、仮想トライオンシミュレーションなど、複数の機能を提供することで、満足度の高い服を見つけるのに役立つ。
基本的、パーソナライズされた、代替的なレコメンデーションタスクにわたる331,124のマルチモーダル対話サンプルを含む、新しいFashionRecデータセットに基づいて、FashionM3は、マルチラウンドインタラクションを通じて反復的リファインメントによるコンテキスト的にパーソナライズされた提案を提供する。
FashionM3のファッションアシスタントとしての推奨効果と実践的価値における優れた性能を示す。
関連論文リスト
- Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond [51.141270065306514]
このチュートリアルは、マルチモーダルAIを活用するための知識とスキルを研究者、実践者、新参者に提供することを目的としている。
最新のマルチモーダルデータセットと事前訓練されたモデル、例えばビジョンや言語以外のものについても取り上げる。
ハンズオン実験室は、最先端のマルチモーダルモデルで実践的な経験を提供する。
論文 参考訳(メタデータ) (2024-10-08T01:41:56Z) - Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference [4.667044856219814]
本稿では,大規模言語モデル(LLM)の表現力を利用した,個人化された衣装推薦手法を提案する。
MLLM(Multimodal Large Language Model)を用いた画像キャプションによる項目記述の視覚的・テキスト的ギャップを橋渡しする。
このフレームワークは、Polyvoreデータセットで評価され、その効果を2つの重要なタスク、すなわちFill-in-the-blankと補完的なアイテム検索で実証する。
論文 参考訳(メタデータ) (2024-09-18T17:15:06Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z) - FashionSAP: Symbols and Attributes Prompt for Fine-grained Fashion
Vision-Language Pre-training [12.652002299515864]
ファッションシンボルと属性プロンプト(FashionSAP)に基づく、きめ細かいファッションビジョン言語事前学習法を提案する。
まず,新しい抽象的なファッション概念層であるファッションシンボルを,異なるファッションアイテムを表現するために提案する。
次に、モデルにファッションアイテムの特定の属性を明示的に学習させる属性プロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-04-11T08:20:17Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Personalized Fashion Recommendation from Personal Social Media Data: An
Item-to-Set Metric Learning Approach [71.63618051547144]
ソーシャルメディアデータからパーソナライズされたファッションレコメンデーションの問題について検討する。
本稿では,ユーザの過去のファッションアイテムと新しいファッションアイテムとの類似性を学習する,アイテムツーセットのメトリック学習フレームワークを提案する。
提案手法の有効性を検証するために,実世界のソーシャルメディアデータセットを収集する。
論文 参考訳(メタデータ) (2020-05-25T23:24:24Z) - Learning Diverse Fashion Collocation by Neural Graph Filtering [78.9188246136867]
本稿では,グラフニューラルネットワークを用いて,フレキシブルなファッションアイテムセットをモデル化する新しいファッションコロケーションフレームワークであるNeural Graph Filteringを提案する。
エッジベクトルに対称演算を適用することにより、このフレームワークは様々な入力/出力を許容し、それらの順序に不変である。
提案手法を,Polyvoreデータセット,Polyvore-Dデータセット,Amazon Fashionデータセットの3つの一般的なベンチマークで評価した。
論文 参考訳(メタデータ) (2020-03-11T16:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。