論文の概要: UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation
- arxiv url: http://arxiv.org/abs/2408.11305v2
- Date: Sat, 12 Oct 2024 14:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 06:22:37.588652
- Title: UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation
- Title(参考訳): UniFashion:マルチモーダルファッション検索と生成のための統合ビジョンランゲージモデル
- Authors: Xiangyu Zhao, Yuehan Zhang, Wenlong Zhang, Xiao-Ming Wu,
- Abstract要約: ファッション分野におけるマルチモーダル生成と検索タスクの課題を同時に解決する統合フレームワークUniFashionを提案する。
我々のモデルは、様々なファッションタスクにおいて、過去のシングルタスク・オブ・ザ・アーティファクトモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 29.489516715874306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fashion domain encompasses a variety of real-world multimodal tasks, including multimodal retrieval and multimodal generation. The rapid advancements in artificial intelligence generated content, particularly in technologies like large language models for text generation and diffusion models for visual generation, have sparked widespread research interest in applying these multimodal models in the fashion domain. However, tasks involving embeddings, such as image-to-text or text-to-image retrieval, have been largely overlooked from this perspective due to the diverse nature of the multimodal fashion domain. And current research on multi-task single models lack focus on image generation. In this work, we present UniFashion, a unified framework that simultaneously tackles the challenges of multimodal generation and retrieval tasks within the fashion domain, integrating image generation with retrieval tasks and text generation tasks. UniFashion unifies embedding and generative tasks by integrating a diffusion model and LLM, enabling controllable and high-fidelity generation. Our model significantly outperforms previous single-task state-of-the-art models across diverse fashion tasks, and can be readily adapted to manage complex vision-language tasks. This work demonstrates the potential learning synergy between multimodal generation and retrieval, offering a promising direction for future research in the fashion domain. The source code is available at https://github.com/xiangyu-mm/UniFashion.
- Abstract(参考訳): ファッションドメインは、マルチモーダル検索やマルチモーダル生成を含む、様々な実世界のマルチモーダルタスクを含んでいる。
人工知能が生成するコンテンツの急速な進歩、特にテキスト生成のための大規模言語モデルや視覚生成のための拡散モデルのような技術は、これらのマルチモーダルモデルをファッション分野に適用することに対する幅広い研究の関心を喚起している。
しかし,マルチモーダル・ファッション・ドメインの多様性から,画像からテキストへの埋め込みやテキスト・ツー・イメージ検索といったタスクは,この観点から見過ごされている。
マルチタスクシングルモデルに関する現在の研究は、画像生成に重点を置いていない。
本研究では、ファッション領域におけるマルチモーダル生成と検索タスクの課題を同時に解決し、画像生成と検索タスクとテキスト生成タスクを統合した統合フレームワークUniFashionを提案する。
UniFashionは拡散モデルとLLMを統合することで埋め込みタスクと生成タスクを統一し、制御可能かつ高忠実な生成を可能にする。
我々のモデルは、様々なファッションタスクにまたがる従来の単一タスクモデルよりも大幅に優れており、複雑な視覚言語タスクの管理に容易に適応できる。
この研究は、マルチモーダル生成と検索の間の潜在的な学習相乗効果を実証し、ファッション分野における将来の研究に有望な方向性を提供する。
ソースコードはhttps://github.com/xiangyu-mm/UniFashion.comで入手できる。
関連論文リスト
- SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - A Survey on Image-text Multimodal Models [2.2048972157452615]
本稿ではまず,画像テキストマルチモーダルモデルの技術的進化について概説する。
次に、一般的な画像テキストマルチモーダル技術の開発が、バイオメディカル分野におけるマルチモーダル技術の進展を促進する方法について説明する。
最後に,一般的な画像テキスト・マルチモーダルモデルのアーキテクチャ,コンポーネント,データについて概説し,バイオメディカル分野における画像テキスト・マルチモーダルモデルの適用と改善について紹介する。
論文 参考訳(メタデータ) (2023-09-23T15:21:15Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - A Visual Tour Of Current Challenges In Multimodal Language Models [24.083086685623247]
マルチモーダル学習は、関数語に対する効果的な単語表現を学習する際の課題を克服することができる。
安定拡散モデルは,少数の関数語のみを効果的にモデル化する。
論文 参考訳(メタデータ) (2022-10-22T22:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。