論文の概要: Most over-representation of phonological features in basic vocabulary disappears when controlling for spatial and phylogenetic effects
- arxiv url: http://arxiv.org/abs/2512.07543v1
- Date: Mon, 08 Dec 2025 13:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.90581
- Title: Most over-representation of phonological features in basic vocabulary disappears when controlling for spatial and phylogenetic effects
- Title(参考訳): 基本語彙における音韻的特徴の過剰表現は、空間的および系統的効果を制御する際に消失する
- Authors: Frederic Blum,
- Abstract要約: 我々は,245言語を解析した基本語彙概念の音響記号に関する最近の研究の頑健さを検証した。
新しい結果は、これまで観察されたパターンのほとんどは堅牢ではなく、実際、多くのパターンが系譜とアリーナコントロールを追加すると完全に消えることを示している。
- 参考スコア(独自算出の注目度): 4.7379911264912185
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The statistical over-representation of phonological features in the basic vocabulary of languages is often interpreted as reflecting potentially universal sound symbolic patterns. However, most of those results have not been tested explicitly for reproducibility and might be prone to biases in the study samples or models. Many studies on the topic do not adequately control for genealogical and areal dependencies between sampled languages, casting doubts on the robustness of the results. In this study, we test the robustness of a recent study on sound symbolism of basic vocabulary concepts which analyzed245 languages.The new sample includes data on 2864 languages from Lexibank. We modify the original model by adding statistical controls for spatial and phylogenetic dependencies between languages. The new results show that most of the previously observed patterns are not robust, and in fact many patterns disappear completely when adding the genealogical and areal controls. A small number of patterns, however, emerges as highly stable even with the new sample. Through the new analysis, we are able to assess the distribution of sound symbolism on a larger scale than previously. The study further highlights the need for testing all universal claims on language for robustness on various levels.
- Abstract(参考訳): 言語の基本語彙における音韻的特徴の統計的過剰表現は、しばしば潜在的に普遍的な音の象徴的パターンを反映していると解釈される。
しかしながら、これらの結果は再現性について明示的にテストされていないため、サンプルやモデルに偏りが生じやすい可能性がある。
この話題に関する多くの研究は、サンプル言語間の属的および地域的依存関係を適切に制御しておらず、その結果の堅牢性に疑問を呈している。
本研究では,245言語を解析した基本語彙概念の音響記号に関する最近の研究の堅牢性を検証する。
言語間の空間的および系統的依存関係を統計的に制御することで、元のモデルを変更する。
以上の結果から, これまで観察されたパターンのほとんどが堅牢性に欠けており, 系譜制御やアリーナ制御を加えると, 多くのパターンが完全に消失することが明らかとなった。
しかし、少数のパターンは、新しいサンプルであっても非常に安定して現れる。
新たな分析により,従来よりも大規模に音の記号分布を評価することができる。
この研究は、様々なレベルで堅牢性のための言語に関する全ての普遍的な主張をテストする必要性をさらに強調している。
関連論文リスト
- Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Are Sounds Sound for Phylogenetic Reconstruction? [41.85920785319125]
本研究は, 音質とコグネートを用いた系統再建法の性能を初めて検証した。
以上の結果から,レキシカルコニャートから復元した系統は,平均四重項距離に対して約3分の1ほど位相的に近接していることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-05T08:35:33Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Language Model Evaluation Beyond Perplexity [47.268323020210175]
我々は、言語モデルから生成されたテキストが、訓練された人為的なテキストに存在する統計的傾向を示すかどうかを分析する。
ニューラルネットワークモデルは、考慮された傾向のサブセットのみを学習しているように見えるが、提案された理論分布よりも経験的傾向とより密接に一致している。
論文 参考訳(メタデータ) (2021-05-31T20:13:44Z) - Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。
先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文 参考訳(メタデータ) (2021-01-24T20:16:12Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。