論文の概要: Leverage Points in Modality Shifts: Comparing Language-only and
Multimodal Word Representations
- arxiv url: http://arxiv.org/abs/2306.02348v1
- Date: Sun, 4 Jun 2023 12:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:28:30.028923
- Title: Leverage Points in Modality Shifts: Comparing Language-only and
Multimodal Word Representations
- Title(参考訳): モダリティシフトにおける点の活用:言語のみ表現とマルチモーダル表現の比較
- Authors: Aleksey Tikhonov, Lisa Bylinina, Denis Paperno
- Abstract要約: マルチモーダル埋め込みは、テキストのみのモデルと比較して、言語の神経表現における意味情報を豊かにすることを目的としている。
本稿では,3つの視覚・言語モデルと3つのテキストのみモデルからの単語埋め込みと,静的・文脈的表現との比較を行った。
これは、46のセマンティックパラメータを含む言語表現に対する視覚的接地の効果に関する最初の大規模研究である。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal embeddings aim to enrich the semantic information in neural
representations of language compared to text-only models. While different
embeddings exhibit different applicability and performance on downstream tasks,
little is known about the systematic representation differences attributed to
the visual modality. Our paper compares word embeddings from three
vision-and-language models (CLIP, OpenCLIP and Multilingual CLIP) and three
text-only models, with static (FastText) as well as contextual representations
(multilingual BERT; XLM-RoBERTa). This is the first large-scale study of the
effect of visual grounding on language representations, including 46 semantic
parameters. We identify meaning properties and relations that characterize
words whose embeddings are most affected by the inclusion of visual modality in
the training data; that is, points where visual grounding turns out most
important. We find that the effect of visual modality correlates most with
denotational semantic properties related to concreteness, but is also detected
for several specific semantic classes, as well as for valence, a
sentiment-related connotational property of linguistic expressions.
- Abstract(参考訳): マルチモーダル埋め込みは、テキストのみのモデルと比較して、言語の神経表現における意味情報を強化することを目的としている。
異なる埋め込みは下流タスクに異なる適用性や性能を示すが、視覚的モダリティに起因する体系的な表現の違いについてはほとんど知られていない。
本稿では、3つの視覚・言語モデル(CLIP, OpenCLIP, Multilingual CLIP)と3つのテキストのみのモデル(FastText)とコンテキスト表現(multilingual BERT, XLM-RoBERTa)の単語埋め込みを比較した。
これは、46のセマンティクスパラメータを含む言語表現に対する視覚的接地の影響に関する最初の大規模研究である。
学習データに視覚的モダリティを含ませることによって最も影響を受けやすい単語を特徴付ける意味的特徴と関係を同定する。
視覚的モダリティの効果は, 具体性に関連する意味的特徴とほとんど相関するが, 言語表現の感情関連意味的特性である原子価だけでなく, 特定の意味的クラスに対しても検出される。
関連論文リスト
- Expand BERT Representation with Visual Information via Grounded Language
Learning with Multimodal Partial Alignment [11.148099070407431]
GroundedBERT(グラウンドドバート)は、視覚的にグラウンドドされた情報でBERT表現を強化する、グラウンドド言語学習法である。
提案手法は,GLUEおよびSQuADデータセットの様々な言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-04T03:16:48Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - What Do Self-Supervised Speech Models Know About Words? [23.163029143563893]
自己教師型音声モデル(S3Ms)はここ数年で導入され、様々な音声タスクの性能とデータ効率が改善されている。
最近の研究は、S3Mが音声情報や話者情報などの特定の特性をエンコードする方法の分析を始めている。
我々は,S3Msで符号化されたセグメントレベルの言語特性を研究するために,軽量な解析手法を用いた。
論文 参考訳(メタデータ) (2023-06-30T22:36:41Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Efficient Multi-Modal Embeddings from Structured Data [0.0]
マルチモーダルワードセマンティクスは、知覚入力による埋め込みを強化することを目的としている。
ビジュアルグラウンドは言語アプリケーションにも貢献できる。
新しい埋め込みは、テキストベースの埋め込みのための補完的な情報を伝達する。
論文 参考訳(メタデータ) (2021-10-06T08:42:09Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。