論文の概要: Retrieval-based Knowledge Augmented Vision Language Pre-training
- arxiv url: http://arxiv.org/abs/2304.13923v1
- Date: Thu, 27 Apr 2023 02:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 14:35:55.808390
- Title: Retrieval-based Knowledge Augmented Vision Language Pre-training
- Title(参考訳): 検索に基づく知識強化視覚言語事前学習
- Authors: Jiahua Rao, Zifei Shan, Longpo Liu, Yao Zhou, Yuedong Yang
- Abstract要約: 本稿では,retrieval-based knowledge Augmented Vision Language Pre-training model (REAVL)を提案する。
REAVLは知識グラフ(KG)から世界知識を取得し、視覚言語による事前学習に組み込む。
新規に4つの知識を意識した自己学習タスクを統一することにより、REAVLはマルチモーダルデータと知識の相互統合を促進する。
- 参考スコア(独自算出の注目度): 9.779887832992435
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With recent progress in large-scale vision and language representation
learning, Vision Language Pretraining (VLP) models have achieved promising
improvements on various multi-modal downstream tasks. Albeit powerful, these
pre-training models still do not take advantage of world knowledge, which is
implicit in multi-modal data but comprises abundant and complementary
information. In this work, we propose a REtrieval-based knowledge Augmented
Vision Language Pre-training model (REAVL), which retrieves world knowledge
from knowledge graphs (KGs) and incorporates them in vision-language
pre-training. REAVL has two core components: a knowledge retriever that
retrieves knowledge given multi-modal data, and a knowledge-augmented model
that fuses multi-modal data and knowledge. By novelly unifying four
knowledge-aware self-supervised tasks, REAVL promotes the mutual integration of
multi-modal data and knowledge by fusing explicit knowledge with
vision-language pairs for masked multi-modal data modeling and KG relational
reasoning. Empirical experiments show that REAVL achieves new state-of-the-art
performance uniformly on knowledge-based vision-language understanding and
multimodal entity linking tasks, and competitive results on general
vision-language tasks while only using 0.2% pre-training data of the best
models.
- Abstract(参考訳): 大規模ビジョンと言語表現学習の最近の進歩により、視覚言語事前学習(VLP)モデルは様々なマルチモーダル下流タスクにおいて有望な改善を実現している。
強力ではあるが、これらの事前学習モデルは、マルチモーダルデータでは暗黙的だが、豊富で補完的な情報を含む世界知識をまだ活用していない。
本研究では,知識グラフ(KG)から世界知識を抽出し,それを視覚言語事前学習に組み込むREAVL(Retrieval-based Knowledge Augmented Vision Language Pre-training Model)を提案する。
REAVLは、与えられたマルチモーダルデータから知識を抽出する知識検索器と、マルチモーダルデータと知識を融合する知識拡張モデルという2つのコアコンポーネントを備えている。
新規に4つの知識認識型自己教師タスクを統合することで、REAVLは、マスク付きマルチモーダルデータモデリングとKGリレーショナル推論のための視覚言語ペアに明示的な知識を融合させることにより、マルチモーダルデータと知識の相互統合を促進する。
実証実験により、REAVLは知識に基づく視覚言語理解とマルチモーダルな実体リンクタスク、および一般的な視覚言語タスクにおける競合結果に対して、最高のモデルの0.2%の事前学習データのみを使用しながら、新しい最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Contrastive Language-Image Pre-Training with Knowledge Graphs [33.211811772961234]
本稿では,CLIPモデルに意味情報を注入する知識ベース事前学習フレームワークであるKnowledge-CLIPを提案する。
我々のモデルは、視覚と言語の表現を高い品質で意味的に整合させ、シナリオやモダリティを越えて推論能力を高めることができる。
論文 参考訳(メタデータ) (2022-10-17T09:49:22Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - JAKET: Joint Pre-training of Knowledge Graph and Language Understanding [73.43768772121985]
本稿では,知識グラフと言語の両方をモデル化する新しい事前学習フレームワークであるJAKETを提案する。
知識モジュールと言語モジュールは相互に支援するための重要な情報を提供する。
我々の設計により、事前学習されたモデルは、新しいドメインの見知らぬ知識グラフに容易に適応できる。
論文 参考訳(メタデータ) (2020-10-02T05:53:36Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。