論文の概要: Visual grounding of abstract and concrete words: A response to G\"unther
et al. (2020)
- arxiv url: http://arxiv.org/abs/2206.15381v1
- Date: Thu, 30 Jun 2022 15:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:02:55.104391
- Title: Visual grounding of abstract and concrete words: A response to G\"unther
et al. (2020)
- Title(参考訳): 抽象的・具体的単語の視覚的基盤化:G\"Unther et al. (2020)
- Authors: Hassan Shahmohammadi, Maria Heitmeier, Elnaz Shafaei-Bajestan, Hendrik
P. A. Lensch, Harald Baayen
- Abstract要約: 単語埋め込みの視覚的基礎化に着目し,2つの重要な質問を対象とする。
まず、視覚的接地過程における視覚から、言語はどのような恩恵を受けるのか?
第二に、視覚的接地と抽象概念の間には関連があるのだろうか?
- 参考スコア(独自算出の注目度): 5.617291981476445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current computational models capturing words' meaning mostly rely on textual
corpora. While these approaches have been successful over the last decades,
their lack of grounding in the real world is still an ongoing problem. In this
paper, we focus on visual grounding of word embeddings and target two important
questions. First, how can language benefit from vision in the process of visual
grounding? And second, is there a link between visual grounding and abstract
concepts? We investigate these questions by proposing a simple yet effective
approach where language benefits from vision specifically with respect to the
modeling of both concrete and abstract words. Our model aligns word embeddings
with their corresponding visual representation without deteriorating the
knowledge captured by textual distributional information. We apply our model to
a behavioral experiment reported by G\"unther et al. (2020), which addresses
the plausibility of having visual mental representations for abstract words.
Our evaluation results show that: (1) It is possible to predict human behaviour
to a large degree using purely textual embeddings. (2) Our grounded embeddings
model human behavior better compared to their textual counterparts. (3)
Abstract concepts benefit from visual grounding implicitly through their
connections to concrete concepts, rather than from having corresponding visual
representations.
- Abstract(参考訳): 単語の意味を捉える現在の計算モデルは、主にテキストコーパスに依存している。
これらのアプローチは過去数十年にわたって成功してきたが、現実世界での基盤の欠如は現在も進行中の問題である。
本稿では,単語埋め込みの視覚的基盤化に着目し,二つの重要な質問を対象とする。
まず、視覚的接地過程における視覚から、言語はどのような恩恵を受けるのか?
第二に、視覚的な接地と抽象的な概念の間には関連性がありますか?
本稿では,具体的および抽象的な単語のモデリングに関して,言語が視覚から恩恵を受けるという,単純かつ効果的なアプローチを提案する。
本モデルでは,テキスト分布情報によって得られる知識を損なうことなく,単語埋め込みを対応する視覚表現と整合させる。
我々は,G\"Unther et al. (2020) によって報告された行動実験に本モデルを適用し,抽象語に対する視覚的心的表現の妥当性について考察した。
評価の結果,(1)純粋にテキスト埋め込みを用いて,人間の行動を予測することが可能であった。
2) 基礎組込みは, テキストの組込みよりも人間の行動のモデル化が優れている。
(3)抽象概念は、視覚的表現が対応することよりも、具体的概念との結びつきを通して暗黙的に視覚的接地から恩恵を受ける。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Visually Grounded Speech Models have a Mutual Exclusivity Bias [20.495178526318185]
子どもが新しい単語を学ぶ際には、相互排他性(ME)バイアスのような制約を用いる。
このバイアスは計算学的に研究されてきたが、個々の単語表現を入力として使用するモデルでのみ研究されている。
自然画像と連続音声から学習する視覚的接地音声モデルの文脈におけるMEバイアスについて検討する。
論文 参考訳(メタデータ) (2024-03-20T18:49:59Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Affection: Learning Affective Explanations for Real-World Visual Data [50.28825017427716]
我々は,85,007枚の公開画像に対して,感情反応と自由形式のテキスト説明を含む大規模データセットを研究コミュニティに導入し,共有する。
本研究は, 被写体集団に大きな支持を得て, 潜在的に有意な感情反応をとらえる上で, 重要な共通基盤があることを示唆する。
私たちの研究は、より豊かで、より人間中心で、感情に敏感な画像分析システムへの道を開くものです。
論文 参考訳(メタデータ) (2022-10-04T22:44:17Z) - Language with Vision: a Study on Grounded Word and Sentence Embeddings [6.231247903840833]
視覚における接地言語は、認知的に妥当な単語と文表現の構築を目指す研究の活発な分野である。
本研究では,事前学習した単語埋め込みのための基礎計算モデルを提案する。
本モデルは,テキスト埋め込みを視覚情報と整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
論文 参考訳(メタデータ) (2022-06-17T15:04:05Z) - Seeing the advantage: visually grounding word embeddings to better
capture human semantic knowledge [8.208534667678792]
分布意味モデルは、多くの自然言語処理タスクで有用な単語レベルの意味をキャプチャする。
我々は、英語のテキストと画像を組み合わせて視覚的に接地した単語埋め込みを作成し、それらを人気のあるテキストベース手法と比較する。
我々の分析では、視覚的に接地された埋め込み類似性は、純粋にテキストベースの埋め込みよりも人間の反応時間を予測することが示されている。
論文 参考訳(メタデータ) (2022-02-21T15:13:48Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - Toward Quantifying Ambiguities in Artistic Images [21.152039726639426]
本稿では,画像の集合の知覚的あいまいさを測定するためのアプローチを提案する。
観客は、異なる視聴時間の後、画像コンテンツを記述するよう依頼される。
Generative Adversarial Networksで作成した画像を使って実験を行う。
論文 参考訳(メタデータ) (2020-08-21T21:40:16Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。