論文の概要: Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2111.07180v1
- Date: Sat, 13 Nov 2021 19:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 12:11:55.979890
- Title: Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning
- Title(参考訳): クロスモーダルコントラスト学習による接地言語による説明可能な意味空間
- Authors: Yizhen Zhang, Minkyu Choi, Kuan Han, Zhongming Liu
- Abstract要約: 視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
- 参考スコア(独自算出の注目度): 3.441021278275805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In natural language processing, most models try to learn semantic
representations merely from texts. The learned representations encode the
distributional semantics but fail to connect to any knowledge about the
physical world. In contrast, humans learn language by grounding concepts in
perception and action and the brain encodes grounded semantics for cognition.
Inspired by this notion and recent work in vision-language learning, we design
a two-stream model for grounding language learning in vision. The model
includes a VGG-based visual stream and a Bert-based language stream. The two
streams merge into a joint representational space. Through cross-modal
contrastive learning, the model first learns to align visual and language
representations with the MS COCO dataset. The model further learns to retrieve
visual objects with language queries through a cross-modal attention module and
to infer the visual relations between the retrieved objects through a bilinear
operator with the Visual Genome dataset. After training, the language stream of
this model is a stand-alone language model capable of embedding concepts in a
visually grounded semantic space. This semantic space manifests principal
dimensions explainable with human intuition and neurobiological knowledge. Word
embeddings in this semantic space are predictive of human-defined norms of
semantic features and are segregated into perceptually distinctive clusters.
Furthermore, the visually grounded language model also enables compositional
language understanding based on visual knowledge and multimodal image search
with queries based on images, texts, or their combinations.
- Abstract(参考訳): 自然言語処理では、ほとんどのモデルはテキストからのみ意味表現を学習しようとする。
学習された表現は分布的意味論を符号化するが、物理世界に関する知識に繋がることができない。
対照的に、人間は知覚と行動の概念を基礎づけることで言語を学び、脳は認識のための基底的意味論を符号化する。
この概念と近年の視覚言語学習の研究に触発されて、視覚における言語学習を基礎付けるための2ストリームモデルを構築した。
このモデルはvggベースのビジュアルストリームとbertベースの言語ストリームを含んでいる。
2つの流れは結合表現空間に合流する。
クロスモーダルなコントラスト学習を通じて、モデルはまず、視覚的および言語表現とMS COCOデータセットとの整合性を学ぶ。
モデルはさらに、クロスモーダルアテンションモジュールを介して言語クエリを持つ視覚オブジェクトを検索し、視覚ゲノムデータセットと双線型演算子を介して検索されたオブジェクト間の視覚関係を推測する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地した意味空間に概念を埋め込むことができるスタンドアロン言語モデルである。
この意味空間は人間の直観と神経生物学的知識で説明できる主次元を示す。
この意味空間における単語の埋め込みは、人間の定義した意味的特徴のノルムを予測し、知覚的に特有のクラスタに分離される。
さらに,視覚的接地言語モデルでは,視覚知識に基づく合成言語理解と,画像やテキスト,それらの組み合わせに基づくクエリを用いたマルチモーダル画像検索を可能にする。
関連論文リスト
- Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。
LCGは学習効率において標準言語のみのモデルより優れている。
CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文 参考訳(メタデータ) (2024-03-21T16:52:01Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Augmenting Vision Language Pretraining by Learning Codebook with Visual
Semantics [29.393661499333284]
本稿では,各視覚トークンに意味を付与するコードブックを共同で学習することで,視覚表現を「分散化」することを提案する。
次に、これらの離散化された視覚的意味論を自己教師付き基盤構造として利用して、マスケッド画像モデリングの目的を構築する。
実験は、一般的な視覚言語ベンチマークにまたがって、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-31T17:36:09Z) - Pretraining on Interactions for Learning Grounded Affordance
Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。
我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。
提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文 参考訳(メタデータ) (2022-07-05T19:19:53Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Language Models as Zero-shot Visual Semantic Learners [0.618778092044887]
本研究では,文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。
文脈表現を持つVSEPは、複雑な場面における単語レベルのオブジェクト表現を合成ゼロショット学習者として区別することができる。
言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れることがわかった。
論文 参考訳(メタデータ) (2021-07-26T08:22:55Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。