論文の概要: Masked Visual Reconstruction in Language Semantic Space
- arxiv url: http://arxiv.org/abs/2301.06958v1
- Date: Tue, 17 Jan 2023 15:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:41:25.292103
- Title: Masked Visual Reconstruction in Language Semantic Space
- Title(参考訳): 言語意味空間におけるマスク視覚再構成
- Authors: Shusheng Yang, Yixiao Ge, Kun Yi, Dian Li, Ying Shan, Xiaohu Qie,
Xinggang Wang
- Abstract要約: Masked visual Reconstruction In Language semantic Space (RILS) pre-training frameworkについて述べる。
RILSは、視覚のみの信号を意味的に意味のあるMIM再構成ターゲットとしてパッチ文の確率に変換する。
本手法は,下流の分類,検出,セグメンテーションにおける高度な転送性を示す。
- 参考スコア(独自算出の注目度): 38.43966132249977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both masked image modeling (MIM) and natural language supervision have
facilitated the progress of transferable visual pre-training. In this work, we
seek the synergy between two paradigms and study the emerging properties when
MIM meets natural language supervision. To this end, we present a novel masked
visual Reconstruction In Language semantic Space (RILS) pre-training framework,
in which sentence representations, encoded by the text encoder, serve as
prototypes to transform the vision-only signals into patch-sentence
probabilities as semantically meaningful MIM reconstruction targets. The vision
models can therefore capture useful components with structured information by
predicting proper semantic of masked tokens. Better visual representations
could, in turn, improve the text encoder via the image-text alignment
objective, which is essential for the effective MIM target transformation.
Extensive experimental results demonstrate that our method not only enjoys the
best of previous MIM and CLIP but also achieves further improvements on various
tasks due to their mutual benefits. RILS exhibits advanced transferability on
downstream classification, detection, and segmentation, especially for low-shot
regimes. Code will be made available at https://github.com/hustvl/RILS.
- Abstract(参考訳): マスク付き画像モデリング(MIM)と自然言語監視の両方が、伝達可能な視覚前訓練の進展を促進している。
本研究では,2つのパラダイム間の相乗効果を探求し,MIMが自然言語の監督を受ける際に出現する特性について検討する。
そこで本研究では,テキストエンコーダで符号化された文表現を,意味的に意味のあるmim再構成目標として,視覚のみの信号をパッチ・センテンテンス確率に変換するためのプロトタイプとして利用する,言語意味空間(rils)事前学習フレームワークを提案する。
したがって、視覚モデルは、マスクされたトークンの適切な意味を予測することによって、構造化された情報で有用なコンポーネントをキャプチャすることができる。
より優れた視覚表現は、効果的なMIMターゲット変換に不可欠な画像-テキストアライメントの目的によって、テキストエンコーダを改善することができる。
実験の結果,従来のMIMとCLIPの利点を享受できるだけでなく,相互利益により,様々なタスクの改善も達成できることがわかった。
rilsは下流分類、検出、セグメンテーション、特に低ショットレジームにおいて高度な転送性を示す。
コードはhttps://github.com/hustvl/RILSで公開される。
関連論文リスト
- FILS: Self-Supervised Video Feature Prediction In Semantic Language Space [11.641926922266347]
本稿では,セマンティックビデオ表現を学習するための自己教師型アプローチを示す。
本稿では,意味言語空間における特徴予測手法であるFILSについて述べる。
論文 参考訳(メタデータ) (2024-06-05T16:44:06Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。