論文の概要: Kiki or Bouba? Sound Symbolism in Vision-and-Language Models
- arxiv url: http://arxiv.org/abs/2310.16781v2
- Date: Mon, 8 Jan 2024 07:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:35:46.783868
- Title: Kiki or Bouba? Sound Symbolism in Vision-and-Language Models
- Title(参考訳): キキかブバか?
視覚・言語モデルにおける音の象徴
- Authors: Morris Alper and Hadar Averbuch-Elor
- Abstract要約: 音声記号はCLIPやStable Diffusionのような視覚・言語モデルに反映されていることを示す。
我々の研究は、音の象徴性を実証し、その性質を計算ツールを用いて理解する新しい方法を提供する。
- 参考スコア(独自算出の注目度): 15.71242350678679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the mapping between sound and meaning in human language is assumed
to be largely arbitrary, research in cognitive science has shown that there are
non-trivial correlations between particular sounds and meanings across
languages and demographic groups, a phenomenon known as sound symbolism. Among
the many dimensions of meaning, sound symbolism is particularly salient and
well-demonstrated with regards to cross-modal associations between language and
the visual domain. In this work, we address the question of whether sound
symbolism is reflected in vision-and-language models such as CLIP and Stable
Diffusion. Using zero-shot knowledge probing to investigate the inherent
knowledge of these models, we find strong evidence that they do show this
pattern, paralleling the well-known kiki-bouba effect in psycholinguistics. Our
work provides a novel method for demonstrating sound symbolism and
understanding its nature using computational tools. Our code will be made
publicly available.
- Abstract(参考訳): 人間の言語における音と意味のマッピングは概ね任意であると仮定されているが、認知科学の研究では、特定の音と意味の間には言語と人口集団の間で非自明な相関関係があることが示されている。
多くの意味の次元の中で、音の象徴は特に、言語と視覚領域の相互関連に関して、健全でよく実証されている。
本研究では,クリップや安定拡散といった視覚・言語モデルに音の象徴性が反映されるかどうかという問題に対処する。
これらのモデルの固有知識を調べるためにゼロショット知識を用いて、精神言語学でよく知られたkiki-bouba効果と並行して、これらのパターンを示す強い証拠を見つける。
本研究は,音の象徴性を示す新しい方法を提供し,その性質を計算ツールを用いて理解する。
私たちのコードは公開されます。
関連論文リスト
- With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language Models [16.583370726582356]
視覚言語モデル (VLM) は, 正書法や画像のみからの抽象的推論により, 暗黙的に音による現象を理解できることを示す。
我々は,古典的キキ・ブーバやミル・マール形状の再現,等級記号課題などの実験を行った。
以上の結果から, VLMは人体ラベルとの一致のレベルが異なることが示され, サイリコ実験ではVLMと人体ラベルとの対応がより重要となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-23T11:13:25Z) - Measuring Sound Symbolism in Audio-visual Models [21.876743976994614]
本研究では,事前学習した音声視覚モデルが,音と視覚表現の関連性を示すかどうかを検討する。
この結果から,人間の言語処理との関連が明らかとなり,認知アーキテクチャや機械学習戦略の洞察が得られた。
論文 参考訳(メタデータ) (2024-09-18T20:33:54Z) - What does Kiki look like? Cross-modal associations between speech sounds and visual shapes in vision-and-language models [0.10923877073891446]
クロスモーダルな嗜好は、言語処理、言語学習、および信号意味マッピングの起源において顕著な役割を担っている。
ブバキキ効果 (ブバキキ効果) を用いて, 視覚・言語モデル(VLM) を探索し, 比較した。
本研究は,ヒトの認知におけるブバキキ効果の起源と,ヒトの相互関連性に整合したVLMの今後の発展について考察した。
論文 参考訳(メタデータ) (2024-07-25T12:09:41Z) - What Drives the Use of Metaphorical Language? Negative Insights from
Abstractness, Affect, Discourse Coherence and Contextualized Word
Representations [13.622570558506265]
特定の談話が与えられたら、どの談話特性が、リテラルな代替語ではなく、比喩的な言語の使用を引き起こすのか?
比喩的言語に対する多くのNLPアプローチは、認知的および(心理学的)言語学的洞察に依存し、談話の一貫性、抽象性、影響のモデルの定義に成功している。
本研究では,メタファー対同義語表現の文脈での活用を予測するために,確立された認知的・言語的特性に依存した5つの単純なモデルを構築した。
論文 参考訳(メタデータ) (2022-05-23T08:08:53Z) - Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。
本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。
画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文 参考訳(メタデータ) (2022-03-15T17:02:30Z) - Signal in Noise: Exploring Meaning Encoded in Random Character Sequences
with Character-Aware Language Models [0.7454831343436739]
ランダムな文字列からなる$n$-grams、または$garble$は、現在ある言語内外における単語の意味を研究するための新しい文脈を提供する。
characterBERT を用いて,巨大コーパス,既存言語,擬似単語の埋め込みを研究することにより,モデルの高次元埋め込み空間の軸を同定し,これらのクラスを$n$-gram で分離する。
論文 参考訳(メタデータ) (2022-03-15T13:48:38Z) - Emergence of Machine Language: Towards Symbolic Intelligence with Neural
Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。
対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文 参考訳(メタデータ) (2022-01-14T14:54:58Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - It's not Rocket Science : Interpreting Figurative Language in Narratives [48.84507467131819]
我々は2つの非構成的図形言語(イディオムとシミュラ)の解釈を研究する。
実験の結果、事前学習された言語モデルのみに基づくモデルは、これらのタスクにおいて人間よりもはるかにひどい性能を示すことがわかった。
また, 知識強化モデルを提案し, 具体的言語を解釈するための人的戦略を採用した。
論文 参考訳(メタデータ) (2021-08-31T21:46:35Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。