論文の概要: Unifying Vision-Language Representation Space with Single-tower
Transformer
- arxiv url: http://arxiv.org/abs/2211.11153v1
- Date: Mon, 21 Nov 2022 02:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:16:04.492618
- Title: Unifying Vision-Language Representation Space with Single-tower
Transformer
- Title(参考訳): シングルタワートランスフォーマによる視覚言語表現空間の統一化
- Authors: Jiho Jang, Chaerin Kong, Donghyeon Jeon, Seonhoon Kim, Nojun Kwak
- Abstract要約: 両モダリティを同時にモダリティに依存しない方法で符号化する統一視覚言語表現空間を学習するためにモデルを訓練する。
我々は、モダリティ固有の表現空間を学習する以前の作品とOneRを区別する興味深い性質を発見する。
- 参考スコア(独自算出の注目度): 29.604520441315135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning is a form of distance learning that aims to learn
invariant features from two related representations. In this paper, we explore
the bold hypothesis that an image and its caption can be simply regarded as two
different views of the underlying mutual information, and train a model to
learn a unified vision-language representation space that encodes both
modalities at once in a modality-agnostic manner. We first identify
difficulties in learning a generic one-tower model for vision-language
pretraining (VLP), and propose OneR as a simple yet effective framework for our
goal. We discover intriguing properties that distinguish OneR from the previous
works that learn modality-specific representation spaces such as zero-shot
object localization, text-guided visual reasoning and multi-modal retrieval,
and present analyses to provide insights into this new form of multi-modal
representation learning. Thorough evaluations demonstrate the potential of a
unified modality-agnostic VLP framework.
- Abstract(参考訳): コントラスト学習(Contrastive Learning)とは、2つの関連する表現から不変の特徴を学習することを目的とした距離学習の一種である。
本稿では,画像とキャプションを2つの異なる相互情報のビューとみなすことができるという大胆な仮説を探求し,両モダリティを同時にモダリティに依存しない方法で符号化する統一視覚言語表現空間を学習するためのモデルを訓練する。
まず,視覚言語前訓練(vlp)のための汎用的1towerモデル学習の難しさを特定し,onerを目標の単純かつ効果的なフレームワークとして提案する。
我々は、ゼロショットオブジェクトのローカライゼーション、テキスト誘導視覚推論、マルチモーダル検索などのモダリティ固有の表現空間を学習する以前の作品と、OneRを区別する興味深い特性を発見し、この新しい形式のマルチモーダル表現学習に関する洞察を提供する。
より詳細な評価は、統一モダリティに依存しないVLPフレームワークの可能性を示している。
関連論文リスト
- Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference [24.58277380514406]
自然言語推論(NLI)は自然言語処理において重要な課題である。
本稿では,大規模な事前学習型言語知識と関連する視覚情報とを同時に統合する,革新的なScenaFuseアダプタを提案する。
我々のアプローチは言語と視覚のギャップを埋め、NLIタスクにおける理解と推論能力の改善につながります。
論文 参考訳(メタデータ) (2024-05-21T01:19:52Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - Semantically Consistent Multi-view Representation Learning [11.145085584637744]
SCMRL(Semantically Consistent Multi-view Representation Learning)を提案する。
SCMRLは、基礎となる多視点セマンティックコンセンサス情報を抽出し、その情報を利用して、統合された特徴表現学習を導く。
いくつかの最先端のアルゴリズムと比較して、広範な実験はその優位性を示している。
論文 参考訳(メタデータ) (2023-03-08T04:27:46Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。