Fugu-MT 論文翻訳(概要): Kiki or Bouba? Sound Symbolism in Vision-and-Language Models

論文の概要: Kiki or Bouba? Sound Symbolism in Vision-and-Language Models

arxiv url: http://arxiv.org/abs/2310.16781v2
Date: Mon, 8 Jan 2024 07:48:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 22:35:46.783868
Title: Kiki or Bouba? Sound Symbolism in Vision-and-Language Models
Title（参考訳）: キキかブバか? 視覚・言語モデルにおける音の象徴
Authors: Morris Alper and Hadar Averbuch-Elor
Abstract要約: 音声記号はCLIPやStable Diffusionのような視覚・言語モデルに反映されていることを示す。我々の研究は、音の象徴性を実証し、その性質を計算ツールを用いて理解する新しい方法を提供する。
参考スコア（独自算出の注目度）: 15.71242350678679
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although the mapping between sound and meaning in human language is assumed to be largely arbitrary, research in cognitive science has shown that there are non-trivial correlations between particular sounds and meanings across languages and demographic groups, a phenomenon known as sound symbolism. Among the many dimensions of meaning, sound symbolism is particularly salient and well-demonstrated with regards to cross-modal associations between language and the visual domain. In this work, we address the question of whether sound symbolism is reflected in vision-and-language models such as CLIP and Stable Diffusion. Using zero-shot knowledge probing to investigate the inherent knowledge of these models, we find strong evidence that they do show this pattern, paralleling the well-known kiki-bouba effect in psycholinguistics. Our work provides a novel method for demonstrating sound symbolism and understanding its nature using computational tools. Our code will be made publicly available.
Abstract（参考訳）: 人間の言語における音と意味のマッピングは概ね任意であると仮定されているが、認知科学の研究では、特定の音と意味の間には言語と人口集団の間で非自明な相関関係があることが示されている。多くの意味の次元の中で、音の象徴は特に、言語と視覚領域の相互関連に関して、健全でよく実証されている。本研究では,クリップや安定拡散といった視覚・言語モデルに音の象徴性が反映されるかどうかという問題に対処する。これらのモデルの固有知識を調べるためにゼロショット知識を用いて、精神言語学でよく知られたkiki-bouba効果と並行して、これらのパターンを示す強い証拠を見つける。本研究は,音の象徴性を示す新しい方法を提供し,その性質を計算ツールを用いて理解する。私たちのコードは公開されます。

関連論文リスト

The Representational Alignment between Humans and Language Models is implicitly driven by a Concreteness Effect [4.491391835956324]
本研究では,人間によって暗黙的に使用される意味距離を,慎重に選択された抽象名詞と具体名詞の集合として推定する。参加者の暗黙的表現空間と言語モデルの意味的表現が著しく一致していることが判明した。結果は、人間と言語モデルは具体性次元に収束するが、他の次元には収束しないことを示している。
論文参考訳（メタデータ） (2025-05-21T15:57:58Z)
LLMs as a synthesis between symbolic and continuous approaches to language [5.333866030919832]
私は、言語のためのディープラーニングモデルは2つの伝統の合成を表していると論じます。 LLMにおけるモルフォシンタクティック知識のかなりの部分が、ほぼ離散的な方法でコード化されていることを示す機械的解釈可能性に関する最近の研究をレビューする。
論文参考訳（メタデータ） (2025-02-17T14:48:18Z)
With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language Models [16.583370726582356]
視覚言語モデル (VLM) は, 正書法や画像のみからの抽象的推論により, 暗黙的に音による現象を理解できることを示す。我々は,古典的キキ・ブーバやミル・マール形状の再現,等級記号課題などの実験を行った。以上の結果から, VLMは人体ラベルとの一致のレベルが異なることが示され, サイリコ実験ではVLMと人体ラベルとの対応がより重要となる可能性が示唆された。
論文参考訳（メタデータ） (2024-09-23T11:13:25Z)
Measuring Sound Symbolism in Audio-visual Models [21.876743976994614]
本研究では,事前学習した音声視覚モデルが,音と視覚表現の関連性を示すかどうかを検討する。この結果から,人間の言語処理との関連が明らかとなり,認知アーキテクチャや機械学習戦略の洞察が得られた。
論文参考訳（メタデータ） (2024-09-18T20:33:54Z)
What does Kiki look like? Cross-modal associations between speech sounds and visual shapes in vision-and-language models [0.10923877073891446]
クロスモーダルな嗜好は、言語処理、言語学習、および信号意味マッピングの起源において顕著な役割を担っている。ブバキキ効果 (ブバキキ効果) を用いて, 視覚・言語モデル(VLM) を探索し, 比較した。本研究は,ヒトの認知におけるブバキキ効果の起源と,ヒトの相互関連性に整合したVLMの今後の発展について考察した。
論文参考訳（メタデータ） (2024-07-25T12:09:41Z)
What Drives the Use of Metaphorical Language? Negative Insights from Abstractness, Affect, Discourse Coherence and Contextualized Word Representations [13.622570558506265]
特定の談話が与えられたら、どの談話特性が、リテラルな代替語ではなく、比喩的な言語の使用を引き起こすのか? 比喩的言語に対する多くのNLPアプローチは、認知的および(心理学的)言語学的洞察に依存し、談話の一貫性、抽象性、影響のモデルの定義に成功している。本研究では,メタファー対同義語表現の文脈での活用を予測するために,確立された認知的・言語的特性に依存した5つの単純なモデルを構築した。
論文参考訳（メタデータ） (2022-05-23T08:08:53Z)
Things not Written in Text: Exploring Spatial Commonsense from Visual Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文参考訳（メタデータ） (2022-03-15T17:02:30Z)
Signal in Noise: Exploring Meaning Encoded in Random Character Sequences with Character-Aware Language Models [0.7454831343436739]
ランダムな文字列からなる$n$-grams、または$garble$は、現在ある言語内外における単語の意味を研究するための新しい文脈を提供する。 characterBERT を用いて,巨大コーパス,既存言語,擬似単語の埋め込みを研究することにより,モデルの高次元埋め込み空間の軸を同定し,これらのクラスを$n$-gram で分離する。
論文参考訳（メタデータ） (2022-03-15T13:48:38Z)
Emergence of Machine Language: Towards Symbolic Intelligence with Neural Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文参考訳（メタデータ） (2022-01-14T14:54:58Z)
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文参考訳（メタデータ） (2021-10-13T05:30:50Z)
It's not Rocket Science : Interpreting Figurative Language in Narratives [48.84507467131819]
我々は2つの非構成的図形言語(イディオムとシミュラ)の解釈を研究する。実験の結果、事前学習された言語モデルのみに基づくモデルは、これらのタスクにおいて人間よりもはるかにひどい性能を示すことがわかった。また, 知識強化モデルを提案し, 具体的言語を解釈するための人的戦略を採用した。
論文参考訳（メタデータ） (2021-08-31T21:46:35Z)
Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文参考訳（メタデータ） (2020-09-02T17:57:38Z)
Probing Contextual Language Models for Common Ground with Visual Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文参考訳（メタデータ） (2020-05-01T21:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。