論文の概要: Adversarially Probing Cross-Family Sound Symbolism in 27 Languages
- arxiv url: http://arxiv.org/abs/2512.12245v1
- Date: Sat, 13 Dec 2025 09:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.181841
- Title: Adversarially Probing Cross-Family Sound Symbolism in 27 Languages
- Title(参考訳): 27言語におけるクロスファミリックな音のシンボリズムの逆探索
- Authors: Anika Sharma, Tianyi Niu, Emma Wrenn, Shashank Srivastava,
- Abstract要約: 本稿では,音の記号を意味領域で計算した最初の言語間比較分析を行う。
音韻学的形式は、不関連言語でさえ、偶然にサイズ意味を予測できる。
系譜を超えて探究するために,サイズ信号を保持しながら言語同一性を抑える逆スクラバを訓練する。
- 参考スコア(独自算出の注目度): 8.003991476447572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The phenomenon of sound symbolism, the non-arbitrary mapping between word sounds and meanings, has long been demonstrated through anecdotal experiments like Bouba Kiki, but rarely tested at scale. We present the first computational cross-linguistic analysis of sound symbolism in the semantic domain of size. We compile a typologically broad dataset of 810 adjectives (27 languages, 30 words each), each phonemically transcribed and validated with native-speaker audio. Using interpretable classifiers over bag-of-segment features, we find that phonological form predicts size semantics above chance even across unrelated languages, with both vowels and consonants contributing. To probe universality beyond genealogy, we train an adversarial scrubber that suppresses language identity while preserving size signal (also at family granularity). Language prediction averaged across languages and settings falls below chance while size prediction remains significantly above chance, indicating cross-family sound-symbolic bias. We release data, code, and diagnostic tools for future large-scale studies of iconicity.
- Abstract(参考訳): 単語の音と意味の非任意マッピングである音の象徴的現象は、Buba Kikiのような逸話的な実験を通じて長い間実証されてきたが、大規模な実験はめったに行われていない。
本稿では,音の記号を意味領域で計算した最初の言語間比較分析を行う。
我々は810の形容詞(27言語、30語)の音韻的に広義のデータセットをコンパイルし、各音声を母語話者の音声で書き起こし、検証する。
バグ・オブ・セグメント(bag-of-segment)機能上の解釈可能な分類器を用いて、母音と子音の両方が寄与する非関係言語でさえ、音韻形式はサイズセマンティクスを高い確率で予測する。
遺伝子学を超えて普遍性を探求するために,サイズ信号(家族の粒度も)を保存しながら言語同一性を抑える逆スクラブを訓練する。
言語や設定で平均される言語予測はチャンスを下回るが、サイズ予測はチャンスよりもはるかに高く、家族間の音-象徴的バイアスを示している。
われわれは、今後のアイコンの大規模研究のためのデータ、コード、診断ツールをリリースする。
関連論文リスト
- Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - The realization of tones in spontaneous spoken Taiwan Mandarin: a corpus-based survey and theory-driven computational modeling [1.7723990552388866]
本研究では,マンダリン音節単語の音節認識と2つの音節の組み合わせについて検討した。
その結果、文脈や音素的実現における意味は、標準言語理論が予測するよりもはるかに絡み合っていることがわかった。
論文 参考訳(メタデータ) (2025-03-29T17:39:55Z) - Kiki or Bouba? Sound Symbolism in Vision-and-Language Models [13.300199242824934]
音声記号はCLIPやStable Diffusionのような視覚・言語モデルに反映されていることを示す。
我々の研究は、音の象徴性を実証し、その性質を計算ツールを用いて理解する新しい方法を提供する。
論文 参考訳(メタデータ) (2023-10-25T17:15:55Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。
先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文 参考訳(メタデータ) (2021-01-24T20:16:12Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。