論文の概要: KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2109.10504v1
- Date: Wed, 22 Sep 2021 03:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 21:13:07.306837
- Title: KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object
Knowledge Distillation
- Title(参考訳): KD-VLP:物体の知識蒸留による終端視覚・言語訓練の改善
- Authors: Yongfei Liu, Chenfei Wu, Shao-yen Tseng, Vasudev Lal, Xuming He, Nan
Duan
- Abstract要約: 自己教師付きビジョン・アンド・ランゲージ事前学習は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習することを目的としている。
本稿では,CNN から Transformer へのイメージグリッド機能を直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド QF フレームワークを提案する。
そこで我々は,オブジェクトの特徴とその意味的ラベルを外部検知器から監視することで,2つの新しいプリテキストタスクを設計する。
- 参考スコア(独自算出の注目度): 42.01427946204401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised vision-and-language pretraining (VLP) aims to learn
transferable multi-modal representations from large-scale image-text data and
to achieve strong performances on a broad scope of vision-language tasks after
finetuning. Previous mainstream VLP approaches typically adopt a two-step
strategy relying on external object detectors to encode images in a multi-modal
Transformer framework, which suffer from restrictive object concept space,
limited image context and inefficient computation. In this paper, we propose an
object-aware end-to-end VLP framework, which directly feeds image grid features
from CNNs into the Transformer and learns the multi-modal representations
jointly. More importantly, we propose to perform object knowledge distillation
to facilitate learning cross-modal alignment at different semantic levels. To
achieve that, we design two novel pretext tasks by taking object features and
their semantic labels from external detectors as supervision: 1.) Object-guided
masked vision modeling task focuses on enforcing object-aware representation
learning in the multi-modal Transformer; 2.) Phrase-region alignment task aims
to improve cross-modal alignment by utilizing the similarities between noun
phrases and object labels in the linguistic space. Extensive experiments on a
wide range of vision-language tasks demonstrate the efficacy of our proposed
framework, and we achieve competitive or superior performances over the
existing pretraining strategies. The code is available in supplementary
materials.
- Abstract(参考訳): 自己教師付き視覚・言語事前学習(VLP)は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習し,微調整後の視覚言語タスクの幅広い範囲で高い性能を達成することを目的としている。
従来の主流のVLPアプローチでは、通常、制約のあるオブジェクト概念空間、制限されたイメージコンテキスト、非効率な計算に苦しむマルチモーダルトランスフォーマーフレームワークで画像をエンコードするために、外部オブジェクト検出器に依存する2段階の戦略を採用している。
本稿では,CNN から Transformer に画像グリッドを直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド VLP フレームワークを提案する。
さらに,異なる意味レベルでのクロスモーダルアライメントの学習を容易にするために,オブジェクト知識の蒸留を行うことを提案する。
そこで我々は、オブジェクトの特徴とそれらの意味的ラベルを外部検出器から監視する2つの新しいプリテキストタスクを設計する。
1 マルチモーダルトランスフォーマーにおける物体認識表現学習の実施に焦点をあてた物体誘導マスク視覚モデリングタスク
2) 句領域アライメントタスクは,言語空間における名詞句と対象ラベルの類似性を利用して,モーダルアライメントを改善することを目的としている。
広範囲にわたる視覚言語タスクに関する広範な実験は,提案手法の有効性を実証し,既存の事前学習戦略に対する競争力や優れた性能を実現する。
コードは補足資料で入手できる。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。
クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。
ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2021-08-16T13:16:58Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。