論文の概要: Do Language Models Associate Sound with Meaning? A Multimodal Study of Sound Symbolism
- arxiv url: http://arxiv.org/abs/2511.10045v1
- Date: Fri, 14 Nov 2025 01:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.659676
- Title: Do Language Models Associate Sound with Meaning? A Multimodal Study of Sound Symbolism
- Title(参考訳): 言語モデルと意味の関連性について : 音のシンボリズムに関するマルチモーダル研究
- Authors: Jinhong Jeong, Sunghyun Lee, Jaeyoung Lee, Seonah Han, Youngjae Yu,
- Abstract要約: MLLM(Multimodal Large Language Models)が人間の言語における聴覚情報をどのように解釈するかを検討する。
LEX-ICONは,4つの自然言語から8,052個の単語からなる,広範囲なミメティックな単語データセットである。
その結果,(1)MLLMの音韻直感は,複数の意味的次元にわたる既存の言語研究と一致し,(2)印象的音韻に焦点をあてる音韻的注意パターンが明らかになった。
- 参考スコア(独自算出の注目度): 20.62188582405012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound symbolism is a linguistic concept that refers to non-arbitrary associations between phonetic forms and their meanings. We suggest that this can be a compelling probe into how Multimodal Large Language Models (MLLMs) interpret auditory information in human languages. We investigate MLLMs' performance on phonetic iconicity across textual (orthographic and IPA) and auditory forms of inputs with up to 25 semantic dimensions (e.g., sharp vs. round), observing models' layer-wise information processing by measuring phoneme-level attention fraction scores. To this end, we present LEX-ICON, an extensive mimetic word dataset consisting of 8,052 words from four natural languages (English, French, Japanese, and Korean) and 2,930 systematically constructed pseudo-words, annotated with semantic features applied across both text and audio modalities. Our key findings demonstrate (1) MLLMs' phonetic intuitions that align with existing linguistic research across multiple semantic dimensions and (2) phonosemantic attention patterns that highlight models' focus on iconic phonemes. These results bridge domains of artificial intelligence and cognitive linguistics, providing the first large-scale, quantitative analyses of phonetic iconicity in terms of MLLMs' interpretability.
- Abstract(参考訳): サウンド・シンボリズム(英: Sound symbolism)とは、音素形式とその意味の非任意関係を指す言語概念である。
MLLM(Multimodal Large Language Models)が人間の言語における聴覚情報をどのように解釈するかを,本研究は説得力のある調査である可能性が示唆された。
テキスト(orthographic and IPA)におけるMLLMの性能と最大25のセマンティックディメンション(例えば、シャープ対ラウンド)を持つ音声入力の聴覚形態について検討し、音素レベルの注意率スコアを測定して、モデルの階層情報処理を観察する。
そこで本研究では,4つの自然言語(英語,フランス語,日本語,韓国語)の8,052語と,テキストと音声の両方に意味的特徴を付加した2,930語からなる,広範囲な模倣語データセットであるLEX-ICONを提案する。
その結果,(1)MLLMの音韻直感は,複数の意味的次元にまたがる既存の言語研究と一致し,(2)モデルが象徴音韻に焦点を絞った音韻的注意パターンが明らかになった。
これらの結果は、人工知能と認知言語学の領域を橋渡しし、MLLMの解釈可能性の観点から、最初の大規模で定量的な音韻の象徴性分析を提供する。
関連論文リスト
- Layer-wise Minimal Pair Probing Reveals Contextual Grammatical-Conceptual Hierarchy in Speech Representations [18.74784108693223]
トランスフォーマーに基づく言語モデル(SLM)は、音声認識と理解を大幅に改善した。
SLMが如何に構文的・概念的特徴をエンコードするかはいまだ不明である。
本研究は,SLMにおける文脈的構文的特徴と意味的特徴の存在を体系的に評価した最初のものである。
論文 参考訳(メタデータ) (2025-09-19T06:29:33Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - Encoding of lexical tone in self-supervised models of spoken language [3.7270979204213446]
本稿では,音声言語モデル(SLM)のトーン符号化機能の解析を目的とした。
SLMは、非音節言語からのデータに基づいて訓練された場合でも、語彙のトーンをかなりの程度にエンコードすることを示す。
SLMは音色や子音の知覚研究において、母国人や非母国人と同様に振る舞う。
論文 参考訳(メタデータ) (2024-03-25T15:28:38Z) - Information-Theoretic Characterization of Vowel Harmony: A
Cross-Linguistic Study on Word Lists [18.138642719651994]
自然言語辞書における母音の予測可能性に基づく調和性の情報理論的尺度を定義する。
音素レベル言語モデル(PLM)を用いてこの調和性を推定する。
我々の研究は、単語リストが類型研究にとって貴重な資源であることを実証している。
論文 参考訳(メタデータ) (2023-08-09T11:32:16Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。