論文の概要: FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks
- arxiv url: http://arxiv.org/abs/2303.02483v1
- Date: Sat, 4 Mar 2023 19:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:19:48.693950
- Title: FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks
- Title(参考訳): FAME-ViL:異種ファッションタスクのためのマルチタスク視覚言語モデル
- Authors: Xiao Han, Xiatian Zhu, Licheng Yu, Li Zhang, Yi-Zhe Song, Tao Xiang
- Abstract要約: ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 129.49630356651454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the fashion domain, there exists a variety of vision-and-language (V+L)
tasks, including cross-modal retrieval, text-guided image retrieval,
multi-modal classification, and image captioning. They differ drastically in
each individual input/output format and dataset size. It has been common to
design a task-specific model and fine-tune it independently from a pre-trained
V+L model (e.g., CLIP). This results in parameter inefficiency and inability to
exploit inter-task relatedness. To address such issues, we propose a novel
FAshion-focused Multi-task Efficient learning method for Vision-and-Language
tasks (FAME-ViL) in this work. Compared with existing approaches, FAME-ViL
applies a single model for multiple heterogeneous fashion tasks, therefore
being much more parameter-efficient. It is enabled by two novel components: (1)
a task-versatile architecture with cross-attention adapters and task-specific
adapters integrated into a unified V+L model, and (2) a stable and effective
multi-task training strategy that supports learning from heterogeneous data and
prevents negative transfer. Extensive experiments on four fashion tasks show
that our FAME-ViL can save 61.5% of parameters over alternatives, while
significantly outperforming the conventional independently trained single-task
models. Code is available at https://github.com/BrandonHanx/FAME-ViL.
- Abstract(参考訳): ファッション領域には、クロスモーダル検索、テキスト誘導画像検索、マルチモーダル分類、画像キャプションなど、様々な視覚と言語(V+L)タスクが存在する。
個々の入力/出力フォーマットとデータセットサイズで大きく異なる。
タスク固有のモデルを設計し、事前訓練されたV+Lモデル(例えばCLIP)から独立して微調整することが一般的である。
その結果、パラメータの非効率性とタスク間の関連性を活用できない。
本研究では,ファシオンに着目した視覚・言語タスク(FAME-ViL)のための多タスク学習手法を提案する。
既存のアプローチと比較して、FAME-ViLは複数の異種ファッションタスクに対して単一のモデルを適用するため、パラメータ効率ははるかに高い。
本手法は,(1)クロスアテンションアダプタとタスク固有アダプタを統合V+Lモデルに統合したタスク可逆アーキテクチャ,(2)異種データからの学習を支援する安定かつ効果的なマルチタスク学習戦略,および負の転送を防止する。
4つのファッションタスクに関する大規模な実験は、FAME-ViLが代替案よりも61.5%のパラメータを節約できることを示している。
コードはhttps://github.com/BrandonHanx/FAME-ViL.comで入手できる。
関連論文リスト
- Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - Foundation Model is Efficient Multimodal Multitask Model Selector [47.017463595702274]
ブルートフォースアプローチは、すべてのターゲットデータセット上のすべてのモデルを微調整し、高い計算コストをもたらす。
マルチタスクモデルセレクタ(EMMS)を提案し,多様なラベル形式を統一的な雑音ラベル埋め込みに変換する。
EMMSは、事前訓練されたモデルの転送可能性を評価するのに十分な高速で効果的で汎用的であり、マルチタスクシナリオにおける最初のモデル選択方法である。
論文 参考訳(メタデータ) (2023-08-11T17:54:44Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。