論文の概要: How direct is the link between words and images?
- arxiv url: http://arxiv.org/abs/2206.15381v2
- Date: Tue, 31 Oct 2023 09:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:59:36.883838
- Title: How direct is the link between words and images?
- Title(参考訳): 単語と画像のリンクはどの程度直接的か?
- Authors: Hassan Shahmohammadi, Maria Heitmeier, Elnaz Shafaei-Bajestan, Hendrik
P. A. Lensch, Harald Baayen
- Abstract要約: ガンサーらは2022年に、言葉と画像の関係を調査するための行動実験を提案した。
本実験により, 被験者の選択行動は, テキストによる埋め込みに基づいて, 広範囲に説明されることが明らかとなった。
視覚的に接地された埋め込みは、特定のケースでのみテキスト埋め込みよりも控えめなアドバンテージを提供する。
- 参考スコア(独自算出の注目度): 6.6851691027139575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current word embedding models despite their success, still suffer from their
lack of grounding in the real world. In this line of research, Gunther et al.
2022 proposed a behavioral experiment to investigate the relationship between
words and images. In their setup, participants were presented with a target
noun and a pair of images, one chosen by their model and another chosen
randomly. Participants were asked to select the image that best matched the
target noun. In most cases, participants preferred the image selected by the
model. Gunther et al., therefore, concluded the possibility of a direct link
between words and embodied experience. We took their experiment as a point of
departure and addressed the following questions. 1. Apart from utilizing
visually embodied simulation of given images, what other strategies might
subjects have used to solve this task? To what extent does this setup rely on
visual information from images? Can it be solved using purely textual
representations? 2. Do current visually grounded embeddings explain subjects'
selection behavior better than textual embeddings? 3. Does visual grounding
improve the semantic representations of both concrete and abstract words? To
address these questions, we designed novel experiments by using pre-trained
textual and visually grounded word embeddings. Our experiments reveal that
subjects' selection behavior is explained to a large extent based on purely
text-based embeddings and word-based similarities, suggesting a minor
involvement of active embodied experiences. Visually grounded embeddings
offered modest advantages over textual embeddings only in certain cases. These
findings indicate that the experiment by Gunther et al. may not be well suited
for tapping into the perceptual experience of participants, and therefore the
extent to which it measures visually grounded knowledge is unclear.
- Abstract(参考訳): 現在の単語埋め込みモデルは、その成功にもかかわらず、まだ現実世界における基盤の欠如に苦しんでいる。
この一連の研究で、Guntherら2022は、言葉と画像の関係を調査するための行動実験を提案した。
設定では、参加者にターゲット名詞と、モデルによって選択された画像と、ランダムに選択された画像が提示された。
参加者は、ターゲット名詞に最も合う画像を選択するよう求められた。
ほとんどの場合、参加者はモデルによって選択された画像を好む。
それゆえ、guntherらは、言葉と具体化された経験とを直接結びつける可能性を結論づけた。
私たちは彼らの実験を出発点として、以下の質問に答えました。
1. 与えられた画像の視覚的具体化シミュレーションの活用とは別に、この課題の解決に被験者が用いた戦略は何か。
この設定は、どの程度画像の視覚情報に依存していますか?
純粋にテキスト表現で解決できるのか?
2. 現状の接地埋め込みはテキスト埋め込みよりも被験者の選択行動が優れているか?
3. ビジュアルグラウンドディングは具体的・抽象的な単語の意味表現を改善するか?
これらの問題に対処するために,事前学習されたテキストと視覚的に接地した単語埋め込みを用いて,新しい実験を考案した。
実験の結果,テキストベースの埋め込みと単語による類似性に基づいて,被験者の選択行動が広範囲に説明されることが判明した。
視覚的に接地された埋め込みは、特定のケースでのみテキスト埋め込みよりも控えめなアドバンテージを提供する。
これらの結果から,guntherらによる実験は参加者の知覚経験に適さない可能性があり,視覚的な接地知識の程度は明らかでない。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Visually Grounded Speech Models have a Mutual Exclusivity Bias [20.495178526318185]
子どもが新しい単語を学ぶ際には、相互排他性(ME)バイアスのような制約を用いる。
このバイアスは計算学的に研究されてきたが、個々の単語表現を入力として使用するモデルでのみ研究されている。
自然画像と連続音声から学習する視覚的接地音声モデルの文脈におけるMEバイアスについて検討する。
論文 参考訳(メタデータ) (2024-03-20T18:49:59Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Affection: Learning Affective Explanations for Real-World Visual Data [50.28825017427716]
我々は,85,007枚の公開画像に対して,感情反応と自由形式のテキスト説明を含む大規模データセットを研究コミュニティに導入し,共有する。
本研究は, 被写体集団に大きな支持を得て, 潜在的に有意な感情反応をとらえる上で, 重要な共通基盤があることを示唆する。
私たちの研究は、より豊かで、より人間中心で、感情に敏感な画像分析システムへの道を開くものです。
論文 参考訳(メタデータ) (2022-10-04T22:44:17Z) - Language with Vision: a Study on Grounded Word and Sentence Embeddings [6.231247903840833]
視覚における接地言語は、認知的に妥当な単語と文表現の構築を目指す研究の活発な分野である。
本研究では,事前学習した単語埋め込みのための基礎計算モデルを提案する。
本モデルは,テキスト埋め込みを視覚情報と整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
論文 参考訳(メタデータ) (2022-06-17T15:04:05Z) - Seeing the advantage: visually grounding word embeddings to better
capture human semantic knowledge [8.208534667678792]
分布意味モデルは、多くの自然言語処理タスクで有用な単語レベルの意味をキャプチャする。
我々は、英語のテキストと画像を組み合わせて視覚的に接地した単語埋め込みを作成し、それらを人気のあるテキストベース手法と比較する。
我々の分析では、視覚的に接地された埋め込み類似性は、純粋にテキストベースの埋め込みよりも人間の反応時間を予測することが示されている。
論文 参考訳(メタデータ) (2022-02-21T15:13:48Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - Toward Quantifying Ambiguities in Artistic Images [21.152039726639426]
本稿では,画像の集合の知覚的あいまいさを測定するためのアプローチを提案する。
観客は、異なる視聴時間の後、画像コンテンツを記述するよう依頼される。
Generative Adversarial Networksで作成した画像を使って実験を行う。
論文 参考訳(メタデータ) (2020-08-21T21:40:16Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。