論文の概要: Kaleido-BERT: Vision-Language Pre-training on Fashion Domain
- arxiv url: http://arxiv.org/abs/2103.16110v1
- Date: Tue, 30 Mar 2021 06:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 01:46:26.095584
- Title: Kaleido-BERT: Vision-Language Pre-training on Fashion Domain
- Title(参考訳): Kaleido-BERT:ファシオンドメインでのビジョンランゲージ事前トレーニング
- Authors: Mingchen Zhuge, Dehong Gao, Deng-Ping Fan, Linbo Jin, Ben Chen,
Haoming Zhou, Minghui Qiu and Ling Shao
- Abstract要約: Kaleido-BERTと呼ばれる新しいビジョン言語(VL)プリトレーニングモデルを紹介します。
トランスからファッションクロスモダリティ表現のための新しいkaleido戦略を紹介します。
Kaleido-BERTは概念的にシンプルで、既存のBERTフレームワークに拡張が容易です。
- 参考スコア(独自算出の注目度): 68.16173902055424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new vision-language (VL) pre-training model dubbed Kaleido-BERT,
which introduces a novel kaleido strategy for fashion cross-modality
representations from transformers. In contrast to random masking strategy of
recent VL models, we design alignment guided masking to jointly focus more on
image-text semantic relations. To this end, we carry out five novel tasks,
i.e., rotation, jigsaw, camouflage, grey-to-color, and blank-to-color for
self-supervised VL pre-training at patches of different scale. Kaleido-BERT is
conceptually simple and easy to extend to the existing BERT framework, it
attains new state-of-the-art results by large margins on four downstream tasks,
including text retrieval (R@1: 4.03% absolute improvement), image retrieval
(R@1: 7.13% abs imv.), category recognition (ACC: 3.28% abs imv.), and fashion
captioning (Bleu4: 1.2 abs imv.). We validate the efficiency of Kaleido-BERT on
a wide range of e-commerical websites, demonstrating its broader potential in
real-world applications.
- Abstract(参考訳): 本稿では, トランスフォーマーからのファッション・モダリティ表現のための新しいカレイド戦略を導入する, Kaleido-BERT (VL) 事前学習モデルを提案する。
近年のVLモデルのランダムマスキング戦略とは対照的に,画像とテクスチャのセマンティクスに焦点を合わせるためにアライメント誘導マスキングを設計する。
この目的のために、異なるスケールのパッチで自己教師付きVL事前トレーニングを行うために、回転、ジグソー、カモフラージュ、グレーツーカラー、ブランクツーカラーの5つの新しいタスクを実行する。
Kaleido-BERTは概念的にはシンプルで、既存のBERTフレームワークへの拡張が容易で、テキスト検索(R@1: 4.03%の絶対改善)、画像検索(R@1: 7.13%のabs imv)を含む4つのダウンストリームタスクで、新しい最先端の結果が得られる。
9%),カテゴリー認識 (ACC: 3.28% abs imv。
およびファッションキャプション(Bleu4:1.2 abs imv.)。
我々は,Keleido-BERTの多岐にわたるe-commerical Webサイト上での効率性を検証し,実世界のアプリケーションにおいてその可能性を示す。
関連論文リスト
- VL-Reader: Vision and Language Reconstructor is an Effective Scene Text Recognizer [22.06023928642522]
本稿では,VL-Readerという,革新的なシーンテキスト認識手法を提案する。
VL-Readerの新規性は、プロセス全体を通して視覚と言語の間の広範な相互作用にある。
トレーニング前の段階では、VL-Readerはマスクされたビジュアルトークンとテキストトークンの両方を再構築するが、微調整の段階では、ネットワークはマスクされた領域を使わずに画像からすべての文字を再構成する。
論文 参考訳(メタデータ) (2024-09-18T02:46:28Z) - Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models [38.52953013858373]
最新のテキスト・画像モデルであるPlayground v3(PGv3)を紹介します。
複数のテストベンチマークで最先端(SoTA)パフォーマンスを実現している。
テキストプロンプトの順守、複雑な推論、正確なテキストレンダリングが優れている。
論文 参考訳(メタデータ) (2024-09-16T19:52:24Z) - Enhancing Vision-Language Pre-training with Rich Supervisions [60.269564094889446]
本稿では,ScreenShotsによる事前学習の強化(S4)を提案する。
S4は、大規模なWebスクリーンショットレンダリングのデータを使用したビジョンランゲージモデルのための、新しい事前トレーニングパラダイムである。
提案手法は,現在のスクリーンショット事前学習目標と比較して,9種類の下流タスクにおいて,画像からテキストまでのモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-03-05T22:14:58Z) - Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection [66.72992463712299]
Vision Transformers (ViT) は、大規模なVisionとLanguage Pre-trainingモデルで人気が高まっている。
これまでの研究では、ViTsの有効性が実証されているが、長い視覚的シーケンスによって引き起こされる計算の非効率性に苦慮している。
TRIPSを導入し、視覚バックボーン内のテキスト誘導パッチ選択層を用いて視覚列を縮小する。
実験の結果, TRIPSは40%の高速化を実現し, 下流タスクの競争力や優れた性能を維持していることがわかった。
論文 参考訳(メタデータ) (2024-01-11T14:31:30Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文 参考訳(メタデータ) (2023-10-07T02:18:52Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。