論文の概要: Language with Vision: a Study on Grounded Word and Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2206.08823v1
- Date: Fri, 17 Jun 2022 15:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 14:01:50.878422
- Title: Language with Vision: a Study on Grounded Word and Sentence Embeddings
- Title(参考訳): 視覚を伴う言語:接地語と文の埋め込みに関する研究
- Authors: Hassan Shahmohammadi, Maria Heitmeier, Elnaz Shafaei-Bajestan, Hendrik
P. A. Lensch, and Harald Baayen
- Abstract要約: 言語基盤化に多くの試みがあったが、言語埋め込みという言葉に視覚的知識を効果的に注入する方法はまだ不明である。
本研究は,事前学習した単語の埋め込みに対して,単純かつ極めて効果的な基礎的手法を提案する。
単語類似度ベンチマークの一連の評価は、ビジュアルグラウンドリングは具体的な単語だけでなく抽象的な単語にも有用であることを示している。
- 参考スコア(独自算出の注目度): 5.23587935428994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language grounding to vision is an active field of research aiming to enrich
text-based representations of word meanings by leveraging perceptual knowledge
from vision. Despite many attempts at language grounding, it is still unclear
how to effectively inject visual knowledge into the word embeddings of a
language in such a way that a proper balance of textual and visual knowledge is
maintained. Some common concerns are the following. Is visual grounding
beneficial for abstract words or is its contribution only limited to concrete
words? What is the optimal way of bridging the gap between text and vision? How
much do we gain by visually grounding textual embeddings? The present study
addresses these questions by proposing a simple yet very effective grounding
approach for pre-trained word embeddings. Our model aligns textual embeddings
with vision while largely preserving the distributional statistics that
characterize word use in text corpora. By applying a learned alignment, we are
able to generate visually grounded embeddings for unseen words, including
abstract words. A series of evaluations on word similarity benchmarks shows
that visual grounding is beneficial not only for concrete words, but also for
abstract words. We also show that our method for visual grounding offers
advantages for contextualized embeddings, but only when these are trained on
corpora of relatively modest size. Code and grounded embeddings for English are
available at https://github.com/Hazel1994/Visually_Grounded_Word_Embeddings_2.
- Abstract(参考訳): 視覚に根ざした言語は、視覚からの知覚的知識を活用することによって、単語の意味をテキストベースで表現することを目的とした研究の活発な分野である。
言語基盤化の多くの試みにもかかわらず、テキストと視覚の知識の適切なバランスが維持されるように、言語の単語埋め込みに視覚的知識を効果的に注入する方法は、いまだ不明である。
一般的な懸念は以下のとおりである。
視覚的基盤は抽象語にとって有益か、それとも具体的な単語に限られるのか?
テキストと視覚のギャップを埋める最適な方法は何か?
テキスト埋め込みを視覚的に接地することで、どのくらい稼ぐことができるか?
本研究では,これらの課題に対して,事前学習した単語の埋め込みに対して,単純かつ極めて効果的な基礎的アプローチを提案する。
本モデルは,テキストコーパスにおける単語使用を特徴付ける分布統計を主に保存しながら,テキスト埋め込みと視覚を一致させる。
学習したアライメントを適用することで、抽象語を含む見えない単語に対して、視覚的に接地された埋め込みを生成することができる。
単語類似度ベンチマークの一連の評価は、ビジュアルグラウンドリングは具体的な単語だけでなく抽象的な単語にも有用であることを示している。
また,提案手法はコンテキスト化埋め込みに有利であるが,比較的小さめのコーパス上で学習した場合にのみ有効であることを示した。
コードはhttps://github.com/Hazel 1994/Visually_Grounded_Word_Embeddings_2で公開されている。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Seeing the advantage: visually grounding word embeddings to better
capture human semantic knowledge [8.208534667678792]
分布意味モデルは、多くの自然言語処理タスクで有用な単語レベルの意味をキャプチャする。
我々は、英語のテキストと画像を組み合わせて視覚的に接地した単語埋め込みを作成し、それらを人気のあるテキストベース手法と比較する。
我々の分析では、視覚的に接地された埋め込み類似性は、純粋にテキストベースの埋め込みよりも人間の反応時間を予測することが示されている。
論文 参考訳(メタデータ) (2022-02-21T15:13:48Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - Learning Zero-Shot Multifaceted Visually Grounded Word Embeddingsvia
Multi-Task Training [8.271859911016719]
言語基盤は、言語(例えば言葉)の象徴的な表現を外界の豊かな知覚的知識に結びつけることを目的としている。
本稿では,言語共起統計から得られる抽象的知識を,知覚情報を取得する過程で犠牲にしていると論じる。
論文 参考訳(メタデータ) (2021-04-15T14:49:11Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - Incorporating Visual Semantics into Sentence Representations within a
Grounded Space [20.784771968813747]
本研究では,中間表現空間である接地空間を学習することにより,視覚情報をテキスト表現に転送することを提案する。
本モデルは,従来の分類と意味的関連性タスクよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-07T12:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。