Fugu-MT 論文翻訳(概要): OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning

論文の概要: OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning

arxiv url: http://arxiv.org/abs/2603.02658v1
Date: Tue, 03 Mar 2026 06:48:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.672939
Title: OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning
Title（参考訳）: OmniFashion:マルチタスクビジョンランゲージ学習による汎用ファッションインテリジェンスを目指して
Authors: Zhengwei Yang, Andi Long, Hao Li, Zechao Hu, Kui Jiang, Zheng Wang,
Abstract要約: FashionXは100万スケールのデータセットで、衣装の中の目に見えるファッションアイテムを完全に注釈付けします。オムニファシオン(OmniFashion)は、多様なファッションタスクを統一的なファッション対話パラダイムの下でブリッジする、視覚言語統合フレームワークである。マルチサブタスクと検索ベンチマークの実験により、OmniFashionは強いタスクレベルの精度とクロスタスクの一般化を達成することが示された。
参考スコア（独自算出の注目度）: 39.27438949211405
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Fashion intelligence spans multiple tasks, i.e., retrieval, recommendation, recognition, and dialogue, yet remains hindered by fragmented supervision and incomplete fashion annotations. These limitations jointly restrict the formation of consistent visual-semantic structures, preventing recent vision-language models (VLMs) from serving as a generalist fashion brain that unifies understanding and reasoning across tasks. Therefore, we construct FashionX, a million-scale dataset that exhaustively annotates visible fashion items within an outfit and organizes attributes from global to part-level. Built upon this foundation, we propose OmniFashion, a unified vision-language framework that bridges diverse fashion tasks under a unified fashion dialogue paradigm, enabling both multi-task reasoning and interactive dialogue. Experiments on multi-subtasks and retrieval benchmarks show that OmniFashion achieves strong task-level accuracy and cross-task generalization, highlighting its offering of a scalable path toward universal, dialogue-oriented fashion intelligence.
Abstract（参考訳）: ファッションインテリジェンス(Fashion Intelligence)は、検索、レコメンデーション、認識、対話といった複数のタスクにまたがるが、断片化された監督と不完全なファッションアノテーションによって妨げられている。これらの制限は、一貫した視覚意味構造の形成を共同で制限し、最近の視覚言語モデル(VLM)が、タスク間の理解と推論を統一する一般的なファッション脳として機能することを防ぐ。そこで,我々はFashionXを構築した。FashionXは,衣料品の目に見えるファッションアイテムを徹底的に注釈付けし,属性をグローバルからパートレベルに整理する,百万規模のデータセットである。この基盤の上に構築されたOmniFashionは、多様なファッションタスクを統一的なファッションダイアログパラダイムでブリッジし、マルチタスク推論と対話的対話の両方を可能にする統合視覚言語フレームワークである。マルチサブタスクと検索ベンチマークの実験は、OmniFashionが強力なタスクレベルの精度とクロスタスクの一般化を実現し、普遍的で対話指向のファッションインテリジェンスへのスケーラブルなパスを提供することを強調している。

関連論文リスト

Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文参考訳（メタデータ） (2026-01-20T11:59:19Z)
From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文参考訳（メタデータ） (2025-09-29T18:25:40Z)
UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings [9.344107676552408]
マルチモーダル埋め込みタスク用に設計された視覚言語モデルアーキテクチャUniMoCoを提案する。我々は,オリジナル入力とモダリティ完了入力の両方から埋め込みを整列させる特別なトレーニング戦略を開発する。実験によると、UniMoCoは様々な設定で一貫性のあるロバスト性を示しながら、従来の手法よりも優れている。
論文参考訳（メタデータ） (2025-05-17T03:53:11Z)
UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation [29.489516715874306]
ファッション分野におけるマルチモーダル生成と検索タスクの課題を同時に解決する統合フレームワークUniFashionを提案する。我々のモデルは、様々なファッションタスクにおいて、過去のシングルタスク・オブ・ザ・アーティファクトモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-08-21T03:17:20Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
FashionSAP: Symbols and Attributes Prompt for Fine-grained Fashion Vision-Language Pre-training [12.652002299515864]
ファッションシンボルと属性プロンプト(FashionSAP)に基づく、きめ細かいファッションビジョン言語事前学習法を提案する。まず,新しい抽象的なファッション概念層であるファッションシンボルを,異なるファッションアイテムを表現するために提案する。次に、モデルにファッションアイテムの特定の属性を明示的に学習させる属性プロンプト手法を提案する。
論文参考訳（メタデータ） (2023-04-11T08:20:17Z)
Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文参考訳（メタデータ） (2023-02-27T18:55:27Z)
FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。 3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文参考訳（メタデータ） (2022-10-26T21:01:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。