論文の概要: Language with Vision: a Study on Grounded Word and Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2206.08823v3
- Date: Tue, 31 Oct 2023 10:08:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:59:12.642295
- Title: Language with Vision: a Study on Grounded Word and Sentence Embeddings
- Title(参考訳): 視覚を伴う言語:接地語と文の埋め込みに関する研究
- Authors: Hassan Shahmohammadi, Maria Heitmeier, Elnaz Shafaei-Bajestan, Hendrik
P. A. Lensch, and Harald Baayen
- Abstract要約: 視覚における接地言語は、認知的に妥当な単語と文表現の構築を目指す研究の活発な分野である。
本研究では,事前学習した単語埋め込みのための基礎計算モデルを提案する。
本モデルは,テキスト埋め込みを視覚情報と整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
- 参考スコア(独自算出の注目度): 6.231247903840833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding language in vision is an active field of research seeking to
construct cognitively plausible word and sentence representations by
incorporating perceptual knowledge from vision into text-based representations.
Despite many attempts at language grounding, achieving an optimal equilibrium
between textual representations of the language and our embodied experiences
remains an open field. Some common concerns are the following. Is visual
grounding advantageous for abstract words, or is its effectiveness restricted
to concrete words? What is the optimal way of bridging the gap between text and
vision? To what extent is perceptual knowledge from images advantageous for
acquiring high-quality embeddings? Leveraging the current advances in machine
learning and natural language processing, the present study addresses these
questions by proposing a simple yet very effective computational grounding
model for pre-trained word embeddings. Our model effectively balances the
interplay between language and vision by aligning textual embeddings with
visual information while simultaneously preserving the distributional
statistics that characterize word usage in text corpora. By applying a learned
alignment, we are able to indirectly ground unseen words including abstract
words. A series of evaluations on a range of behavioural datasets shows that
visual grounding is beneficial not only for concrete words but also for
abstract words, lending support to the indirect theory of abstract concepts.
Moreover, our approach offers advantages for contextualized embeddings, such as
those generated by BERT, but only when trained on corpora of modest,
cognitively plausible sizes. Code and grounded embeddings for English are
available at https://github.com/Hazel1994/Visually_Grounded_Word_Embeddings_2.
- Abstract(参考訳): 視覚における接地言語は、視覚からの知覚的知識をテキストベース表現に組み込むことにより、認知的に妥当な単語と文表現を構築するための研究の活発な分野である。
言語基盤化の多くの試みにもかかわらず、言語のテキスト表現と具体的経験の最適均衡を達成することは、まだオープンフィールドである。
一般的な懸念は以下のとおりである。
視覚的接地は抽象語に有利か、それとも具体的な語に限定するか?
テキストと視覚のギャップを埋める最適な方法は何か?
画像からの知覚的知識が高品質な埋め込みの獲得にどの程度有効か?
機械学習と自然言語処理の最近の進歩を活かし,本研究では,事前学習された単語埋め込みのための,単純かつ非常に効果的な計算基盤モデルを提案する。
本モデルは,テキストコーパスにおける単語使用を特徴付ける分布統計を保存しつつ,テキスト埋め込みと視覚情報とを整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
学習されたアライメントを適用することで、抽象語を含む無意味な単語を間接的に接地することができる。
行動データセットの一連の評価は、視覚的グラウンドリングが具体的な単語だけでなく抽象語にも有用であることを示し、抽象概念の間接的理論に支援を与える。
さらに,本手法は, BERT が生成したようなコンテキスト適応型埋め込みの利点を提供するが, 質素で認知学的に妥当な大きさのコーパスで訓練した場合に限られる。
コードはhttps://github.com/Hazel 1994/Visually_Grounded_Word_Embeddings_2で公開されている。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Seeing the advantage: visually grounding word embeddings to better
capture human semantic knowledge [8.208534667678792]
分布意味モデルは、多くの自然言語処理タスクで有用な単語レベルの意味をキャプチャする。
我々は、英語のテキストと画像を組み合わせて視覚的に接地した単語埋め込みを作成し、それらを人気のあるテキストベース手法と比較する。
我々の分析では、視覚的に接地された埋め込み類似性は、純粋にテキストベースの埋め込みよりも人間の反応時間を予測することが示されている。
論文 参考訳(メタデータ) (2022-02-21T15:13:48Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - Learning Zero-Shot Multifaceted Visually Grounded Word Embeddingsvia
Multi-Task Training [8.271859911016719]
言語基盤は、言語(例えば言葉)の象徴的な表現を外界の豊かな知覚的知識に結びつけることを目的としている。
本稿では,言語共起統計から得られる抽象的知識を,知覚情報を取得する過程で犠牲にしていると論じる。
論文 参考訳(メタデータ) (2021-04-15T14:49:11Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - Incorporating Visual Semantics into Sentence Representations within a
Grounded Space [20.784771968813747]
本研究では,中間表現空間である接地空間を学習することにより,視覚情報をテキスト表現に転送することを提案する。
本モデルは,従来の分類と意味的関連性タスクよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-07T12:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。