論文の概要: Kiki or Bouba? Sound Symbolism in Vision-and-Language Models
- arxiv url: http://arxiv.org/abs/2310.16781v2
- Date: Mon, 8 Jan 2024 07:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:35:46.783868
- Title: Kiki or Bouba? Sound Symbolism in Vision-and-Language Models
- Title(参考訳): キキかブバか?
視覚・言語モデルにおける音の象徴
- Authors: Morris Alper and Hadar Averbuch-Elor
- Abstract要約: 音声記号はCLIPやStable Diffusionのような視覚・言語モデルに反映されていることを示す。
我々の研究は、音の象徴性を実証し、その性質を計算ツールを用いて理解する新しい方法を提供する。
- 参考スコア(独自算出の注目度): 15.71242350678679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the mapping between sound and meaning in human language is assumed
to be largely arbitrary, research in cognitive science has shown that there are
non-trivial correlations between particular sounds and meanings across
languages and demographic groups, a phenomenon known as sound symbolism. Among
the many dimensions of meaning, sound symbolism is particularly salient and
well-demonstrated with regards to cross-modal associations between language and
the visual domain. In this work, we address the question of whether sound
symbolism is reflected in vision-and-language models such as CLIP and Stable
Diffusion. Using zero-shot knowledge probing to investigate the inherent
knowledge of these models, we find strong evidence that they do show this
pattern, paralleling the well-known kiki-bouba effect in psycholinguistics. Our
work provides a novel method for demonstrating sound symbolism and
understanding its nature using computational tools. Our code will be made
publicly available.
- Abstract(参考訳): 人間の言語における音と意味のマッピングは概ね任意であると仮定されているが、認知科学の研究では、特定の音と意味の間には言語と人口集団の間で非自明な相関関係があることが示されている。
多くの意味の次元の中で、音の象徴は特に、言語と視覚領域の相互関連に関して、健全でよく実証されている。
本研究では,クリップや安定拡散といった視覚・言語モデルに音の象徴性が反映されるかどうかという問題に対処する。
これらのモデルの固有知識を調べるためにゼロショット知識を用いて、精神言語学でよく知られたkiki-bouba効果と並行して、これらのパターンを示す強い証拠を見つける。
本研究は,音の象徴性を示す新しい方法を提供し,その性質を計算ツールを用いて理解する。
私たちのコードは公開されます。
関連論文リスト
- What Drives the Use of Metaphorical Language? Negative Insights from
Abstractness, Affect, Discourse Coherence and Contextualized Word
Representations [13.622570558506265]
特定の談話が与えられたら、どの談話特性が、リテラルな代替語ではなく、比喩的な言語の使用を引き起こすのか?
比喩的言語に対する多くのNLPアプローチは、認知的および(心理学的)言語学的洞察に依存し、談話の一貫性、抽象性、影響のモデルの定義に成功している。
本研究では,メタファー対同義語表現の文脈での活用を予測するために,確立された認知的・言語的特性に依存した5つの単純なモデルを構築した。
論文 参考訳(メタデータ) (2022-05-23T08:08:53Z) - Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。
本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。
画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文 参考訳(メタデータ) (2022-03-15T17:02:30Z) - Signal in Noise: Exploring Meaning Encoded in Random Character Sequences
with Character-Aware Language Models [0.7454831343436739]
ランダムな文字列からなる$n$-grams、または$garble$は、現在ある言語内外における単語の意味を研究するための新しい文脈を提供する。
characterBERT を用いて,巨大コーパス,既存言語,擬似単語の埋め込みを研究することにより,モデルの高次元埋め込み空間の軸を同定し,これらのクラスを$n$-gram で分離する。
論文 参考訳(メタデータ) (2022-03-15T13:48:38Z) - Learning English with Peppa Pig [15.581176123296947]
本研究は,子どもの漫画『ペッパ・ピッグ』に基づくデータセットを用いて,自然主義的なグラウンドディングシナリオをシミュレートする第一歩である。
我々は、文字間の自然な対話からなるデータの一部に、単純なバイモーダルアーキテクチャを訓練する。
この訓練データに弱く、確立された信号があるにもかかわらず、我々のモデルは、音声言語の視覚的意味論の学習に成功している。
論文 参考訳(メタデータ) (2022-02-25T19:14:35Z) - Emergence of Machine Language: Towards Symbolic Intelligence with Neural
Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。
対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文 参考訳(メタデータ) (2022-01-14T14:54:58Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z) - How Familiar Does That Sound? Cross-Lingual Representational Similarity
Analysis of Acoustic Word Embeddings [12.788276426899312]
本稿では、音響単語の埋め込み(AWE)を分析するために、表現類似性分析(RSA)に基づく新しい設計を提案する。
まず,類型的類似度の異なる7つのインド・ヨーロッパ語で単言語AWEモデルを訓練する。
次に、AWEを用いてネイティブおよび非ネイティブ音声単語処理をシミュレートし、言語間類似性を定量化するためにRSAを用いる。
論文 参考訳(メタデータ) (2021-09-21T13:51:39Z) - It's not Rocket Science : Interpreting Figurative Language in Narratives [48.84507467131819]
我々は2つの非構成的図形言語(イディオムとシミュラ)の解釈を研究する。
実験の結果、事前学習された言語モデルのみに基づくモデルは、これらのタスクにおいて人間よりもはるかにひどい性能を示すことがわかった。
また, 知識強化モデルを提案し, 具体的言語を解釈するための人的戦略を採用した。
論文 参考訳(メタデータ) (2021-08-31T21:46:35Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。