論文の概要: TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data
- arxiv url: http://arxiv.org/abs/2106.01797v1
- Date: Thu, 3 Jun 2021 12:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 20:17:32.449389
- Title: TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data
- Title(参考訳): TVDIM: ノイズのあるテキストデータによる自己監督型事前トレーニングの強化
- Authors: Pengda Qin and Yuhong Li
- Abstract要約: テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 13.68491474904529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Among ubiquitous multimodal data in the real world, text is the modality
generated by human, while image reflects the physical world honestly. In a
visual understanding application, machines are expected to understand images
like human. Inspired by this, we propose a novel self-supervised learning
method, named Text-enhanced Visual Deep InfoMax (TVDIM), to learn better visual
representations by fully utilizing the naturally-existing multimodal data. Our
core idea of self-supervised learning is to maximize the mutual information
between features extracted from multiple views of a shared context to a
rational degree. Different from previous methods which only consider multiple
views from a single modality, our work produces multiple views from different
modalities, and jointly optimizes the mutual information for features pairs of
intra-modality and inter-modality. Considering the information gap between
inter-modality features pairs from data noise, we adopt a \emph{ranking-based}
contrastive learning to optimize the mutual information. During evaluation, we
directly use the pre-trained visual representations to complete various image
classification tasks. Experimental results show that, TVDIM significantly
outperforms previous visual self-supervised methods when processing the same
set of images.
- Abstract(参考訳): 現実世界のユビキタスなマルチモーダルデータのうち、テキストは人間が生成するモダリティであり、画像は物理的世界を反映している。
視覚理解アプリケーションでは、機械は人間のようなイメージを理解することが期待される。
そこで本研究では,自然に存在するマルチモーダルデータを完全に活用して,より優れた視覚表現を学習するための,テキスト強化ビジュアル深度情報Max (TVDIM) という自己教師型学習手法を提案する。
自己教師付き学習の核となる考え方は、共有コンテキストの複数のビューから抽出された特徴間の相互情報量を合理度に最大化することです。
単一のモダリティからのみ複数のビューを考える従来の方法とは異なり、我々の研究は異なるモダリティから複数のビューを生成し、モダリティ内およびモダリティ間の特徴対に対する相互情報を共同で最適化する。
データノイズからモダリティ間の情報ギャップを考えると、相互情報を最適化するためにemph{ rank-based}コントラスト学習を採用する。
評価では,事前学習した視覚表現を用いて様々な画像分類作業を行う。
実験の結果,TVDIMは同じ画像の集合を処理する場合,従来の視覚自己監督手法よりも有意に優れていた。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Generalization algorithm of multimodal pre-training model based on
graph-text self-supervised training [0.0]
自己指導型トレーニングのためのマルチモーダル事前学習アルゴリズムを提案する。
フィルタ情報を用いて微調整を行う場合,グローバル音声データセットの翻訳効果は,ベースラインよりも0.5BLEU高いことがわかった。
論文 参考訳(メタデータ) (2023-02-16T03:34:08Z) - Vision Learners Meet Web Image-Text Pairs [32.36188289972377]
本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。