論文の概要: Masked Vision-Language Transformer in Fashion
- arxiv url: http://arxiv.org/abs/2210.15110v1
- Date: Thu, 27 Oct 2022 01:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:42:53.957243
- Title: Masked Vision-Language Transformer in Fashion
- Title(参考訳): ファシオン型マスクドビジョンランゲージ変圧器
- Authors: Ge-Peng Ji, Mingcheng Zhuge, Dehong Gao, Deng-Ping Fan, Christos
Sakaridis, Luc Van Gool
- Abstract要約: ファッション特化マルチモーダル表現のためのマスク付き視覚言語変換器(MVLT)
MVLTは、追加の事前処理モデルなしで生のマルチモーダル入力を許容する、便利で便利なアーキテクチャである。
さらに重要なこととして、MVLTは様々なマッチングおよび生成タスクに容易に一般化できる。
- 参考スコア(独自算出の注目度): 85.6143169850834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a masked vision-language transformer (MVLT) for fashion-specific
multi-modal representation. Technically, we simply utilize vision transformer
architecture for replacing the BERT in the pre-training model, making MVLT the
first end-to-end framework for the fashion domain. Besides, we designed masked
image reconstruction (MIR) for a fine-grained understanding of fashion. MVLT is
an extensible and convenient architecture that admits raw multi-modal inputs
without extra pre-processing models (e.g., ResNet), implicitly modeling the
vision-language alignments. More importantly, MVLT can easily generalize to
various matching and generative tasks. Experimental results show obvious
improvements in retrieval (rank@5: 17%) and recognition (accuracy: 3%) tasks
over the Fashion-Gen 2018 winner Kaleido-BERT. Code is made available at
https://github.com/GewelsJI/MVLT.
- Abstract(参考訳): ファッション特有のマルチモーダル表現のためのマスク付き視覚言語変換器(MVLT)を提案する。
技術的には、単にビジョントランスフォーマーアーキテクチャを使用して、事前学習モデルのBERTを置き換えることで、MVLTがファッションドメインの最初のエンドツーエンドフレームワークとなる。
また,ファッションのきめ細かい理解のために,マスク画像再構成(MIR)を設計した。
MVLTは拡張可能で便利なアーキテクチャであり、余分な事前処理モデル(ResNetなど)なしで生のマルチモーダル入力を許容し、視覚言語アライメントを暗黙的にモデル化する。
さらに重要なのは、MVLTが様々なマッチングおよび生成タスクに容易に一般化できることだ。
実験結果は、Fashion-Gen 2018の勝者Kaleido-BERTに対する検索(rank@5: 17%)と認識(精度: 3%)タスクの明らかな改善を示している。
コードはhttps://github.com/GewelsJI/MVLTで公開されている。
関連論文リスト
- Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - VisionLLaMA: A Unified LLaMA Backbone for Vision Tasks [60.22144823791902]
我々は,LLaMAライクな視覚トランスフォーマーを,この目的のために設計されたVisionLLaMAと呼ばれる,平らでピラミッド的な形状で披露する。
VisionLLaMAは、ほとんどのビジョンタスクを解決するための統一的で汎用的なモデリングフレームワークである。
論文 参考訳(メタデータ) (2024-03-01T13:30:51Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Masked Vision-Language Transformers for Scene Text Recognition [10.057137581956363]
Scene Text Recognition (STR) は、コンピュータが様々な現実世界のシーンでテキストを認識し読み取ることを可能にする。
近年のSTRモデルは、視覚的手がかりに加え、言語情報を取り入れることの恩恵を受けている。
本稿では,暗黙的および暗黙的言語情報の両方を捉えるために,Masked Vision-Language Transformers (MVLT)を提案する。
論文 参考訳(メタデータ) (2022-11-09T10:28:23Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - On Vision Features in Multimodal Machine Translation [34.41229863267296]
我々は,マルチモーダル機械翻訳における画像のパッチレベルの寄与を研究するために,選択的アテンションモデルを開発する。
この結果から,MMTモデル,特に現在のベンチマークが小規模でバイアスのある場合,慎重に検討する必要があることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T08:51:09Z) - VLMo: Unified Vision-Language Pre-Training with
Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。
MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。
本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。