論文の概要: ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration
- arxiv url: http://arxiv.org/abs/2108.07073v1
- Date: Mon, 16 Aug 2021 13:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 19:28:08.264967
- Title: ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration
- Title(参考訳): ROSITA:クロスモーダル・イントラモーダル知識統合による視覚・言語セマンティックアライメントの強化
- Authors: Yuhao Cui, Zhou Yu, Chunqi Wang, Zhongzhou Zhao, Ji Zhang, Meng Wang,
Jun Yu
- Abstract要約: ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。
クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。
ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
- 参考スコア(独自算出の注目度): 48.01536973731182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-language pretraining (VLP) aims to learn generic multimodal
representations from massive image-text pairs. While various successful
attempts have been proposed, learning fine-grained semantic alignments between
image-text pairs plays a key role in their approaches. Nevertheless, most
existing VLP approaches have not fully utilized the intrinsic knowledge within
the image-text pairs, which limits the effectiveness of the learned alignments
and further restricts the performance of their models. To this end, we
introduce a new VLP method called ROSITA, which integrates the cross- and
intra-modal knowledge in a unified scene graph to enhance the semantic
alignments. Specifically, we introduce a novel structural knowledge masking
(SKM) strategy to use the scene graph structure as a priori to perform masked
language (region) modeling, which enhances the semantic alignments by
eliminating the interference information within and across modalities.
Extensive ablation studies and comprehensive analysis verifies the
effectiveness of ROSITA in semantic alignments. Pretrained with both in-domain
and out-of-domain datasets, ROSITA significantly outperforms existing
state-of-the-art VLP methods on three typical vision-and-language tasks over
six benchmark datasets.
- Abstract(参考訳): Vision-and-Language Pretraining (VLP)は、大量の画像テキストペアから汎用的なマルチモーダル表現を学ぶことを目的としている。
様々な試みが提案されているが、画像とテキストのペア間の微粒なセマンティックアライメントの学習は、それらのアプローチにおいて重要な役割を果たす。
しかしながら、既存のVLPアプローチのほとんどは、学習されたアライメントの有効性を制限し、それらのモデルの性能をさらに制限するイメージテキストペア内の本質的な知識を十分に活用していない。
この目的のために,ROSITAと呼ばれる新しいVLP手法を導入し,シーングラフの相互・内部知識を統合し,セマンティックアライメントを強化する。
具体的には、シーングラフ構造を優先的に使用してマスキング言語(リージョン)モデリングを行う新しい構造知識マスキング(SKM)戦略を導入し、モダリティ間の干渉情報を排除し、セマンティックアライメントを強化する。
広範囲にわたるアブレーション研究と包括的分析は、ROSITAのセマンティックアライメントにおける有効性を検証する。
ドメイン内データセットとドメイン外データセットの両方で事前訓練されたROSITAは、6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端のVLPメソッドを著しく上回っている。
関連論文リスト
- VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object
Knowledge Distillation [42.01427946204401]
自己教師付きビジョン・アンド・ランゲージ事前学習は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習することを目的としている。
本稿では,CNN から Transformer へのイメージグリッド機能を直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド QF フレームワークを提案する。
そこで我々は,オブジェクトの特徴とその意味的ラベルを外部検知器から監視することで,2つの新しいプリテキストタスクを設計する。
論文 参考訳(メタデータ) (2021-09-22T03:38:05Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。