論文の概要: Fine-Grained Semantically Aligned Vision-Language Pre-Training
- arxiv url: http://arxiv.org/abs/2208.02515v1
- Date: Thu, 4 Aug 2022 07:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:40:53.221699
- Title: Fine-Grained Semantically Aligned Vision-Language Pre-Training
- Title(参考訳): 微粒度セマンティックアライメントによる視覚言語事前学習
- Authors: Juncheng Li, Xin He, Longhui Wei, Long Qian, Linchao Zhu, Lingxi Xie,
Yueting Zhuang, Qi Tian, Siliang Tang
- Abstract要約: 大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
- 参考スコア(独自算出の注目度): 151.7372197904064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language pre-training has shown impressive advances in a
wide range of downstream tasks. Existing methods mainly model the cross-modal
alignment by the similarity of the global representations of images and texts,
or advanced cross-modal attention upon image and text features. However, they
fail to explicitly learn the fine-grained semantic alignment between visual
regions and textual phrases, as only global image-text alignment information is
available. In this paper, we introduce LOUPE, a fine-grained semantically
aLigned visiOn-langUage PrE-training framework, which learns fine-grained
semantic alignment from the novel perspective of game-theoretic interactions.
To efficiently compute the game-theoretic interactions, we further propose an
uncertainty-aware neural Shapley interaction learning module. Experiments show
that LOUPE achieves state-of-the-art on image-text retrieval benchmarks.
Without any object-level human annotations and fine-tuning, LOUPE achieves
competitive performance on object detection and visual grounding. More
importantly, LOUPE opens a new promising direction of learning fine-grained
semantics from large-scale raw image-text pairs.
- Abstract(参考訳): 大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像やテキストのグローバルな表現の類似性や、画像やテキストの特徴に対する高度な横断的注意によって、モーダル間のアライメントをモデル化する。
しかし、グローバルな画像テキストアライメント情報のみが利用可能であるため、視覚領域とテキストフレーズ間の微粒なセマンティックアライメントを明示的に学習することができない。
本稿では,ゲーム理論的なインタラクションの新たな視点から,詳細な意味的アライメントを学ぶための,意味的にアライメントされた視覚言語事前学習フレームワークであるloupeについて紹介する。
ゲーム理論の相互作用を効率的に計算するために,不確実性を考慮したニューラルシェープリー相互作用学習モジュールを提案する。
実験の結果, LOUPEは画像テキスト検索ベンチマークの最先端化を実現している。
オブジェクトレベルの人間のアノテーションや微調整がなければ、LOUPEはオブジェクトの検出と視覚的な接地において競合するパフォーマンスを達成する。
さらに重要なことに、loupeは、大規模な画像テキストペアからきめ細かなセマンティクスを学ぶ、新しい有望な方向を開く。
関連論文リスト
- NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training [6.34265125858783]
本稿では,事前学習の少ない視覚言語事前学習のためのノイズロバストフレームワークを提案する。
具体的には、凍結した画像エンコーダと大きな言語モデルとのモダリティギャップを変換器でブリッジする。
ノイズ適応学習と概念強化学習の2つの革新的な学習戦略を導入する。
論文 参考訳(メタデータ) (2024-09-15T01:54:17Z) - Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。
マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文 参考訳(メタデータ) (2022-02-21T17:54:57Z) - Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks [207.52609682812147]
そこで我々は,Oscar (Object-Semantics Aligned Pre-training) という新しい学習手法を提案する。
画像で検出されたオブジェクトタグをアンカーポイントとして使用することで、アライメントの学習を大幅に容易にする。
我々は、650万のテキストイメージ対のパブリックコーパスでオスカーモデルを事前訓練し、下流のタスクで微調整する。
論文 参考訳(メタデータ) (2020-04-13T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。