論文の概要: Using Information Theory to Characterize Prosodic Typology: The Case of Tone, Pitch-Accent and Stress-Accent
- arxiv url: http://arxiv.org/abs/2505.07659v1
- Date: Mon, 12 May 2025 15:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.454126
- Title: Using Information Theory to Characterize Prosodic Typology: The Case of Tone, Pitch-Accent and Stress-Accent
- Title(参考訳): 情報理論を用いて韻律的類型論を特徴づける:声調・ピッチ・アクセント・ストレス・アクセントの場合
- Authors: Ethan Gotlieb Wilcox, Cui Ding, Giovanni Acampa, Tiago Pimentel, Alex Warstadt, Tamar I. Regev,
- Abstract要約: 我々は,韻律を用いて語彙を区別する言語は,韻律と単語の同一性の間に高い相互情報を示すべきであると予測した。
テキストとピッチ曲線の相互情報を推定するために、5つの言語ファミリーで10の言語で発音された文を読み取る話者のデータセットを使用する。
- 参考スコア(独自算出の注目度): 22.63155507847401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper argues that the relationship between lexical identity and prosody -- one well-studied parameter of linguistic variation -- can be characterized using information theory. We predict that languages that use prosody to make lexical distinctions should exhibit a higher mutual information between word identity and prosody, compared to languages that don't. We test this hypothesis in the domain of pitch, which is used to make lexical distinctions in tonal languages, like Cantonese. We use a dataset of speakers reading sentences aloud in ten languages across five language families to estimate the mutual information between the text and their pitch curves. We find that, across languages, pitch curves display similar amounts of entropy. However, these curves are easier to predict given their associated text in the tonal languages, compared to pitch- and stress-accent languages, and thus the mutual information is higher in these languages, supporting our hypothesis. Our results support perspectives that view linguistic typology as gradient, rather than categorical.
- Abstract(参考訳): 本稿では,語彙同一性と韻律の関係について,情報理論を用いて考察した。
我々は,韻律を用いて語彙を区別する言語は,韻律と単語の同一性の間に高い相互情報を示すべきであると予測した。
我々はこの仮説をピッチの領域で検証し、これはカントン語のような音節言語における語彙的区別に使用される。
テキストとピッチ曲線の相互情報を推定するために、5つの言語ファミリーで10の言語で発音された文を読み取る話者のデータセットを使用する。
言語全体にわたって、ピッチ曲線は同様のエントロピーの量を示す。
しかし,これらの曲線は,音節言語と強勢言語に比較して,音節言語と関係するテキストから容易に予測できるため,これらの言語では相互情報がより多くなり,仮説が支持される。
本研究は,言語型学を分類学ではなく,勾配とみなす視点を支持する。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
語彙の多様性はタイプトケン比とエントロピーで特徴づけられる。
英語,スペイン語,トルコ語の6つの大規模言語データセットにおける多様性指標について検討した。
与えられたコーパスと言語のテキストのエントロピーとタイプトケン比の実証的機能関係を明らかにした。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - Analyzing The Language of Visual Tokens [48.62180485759458]
我々は、離散的な視覚言語を分析するために、自然言語中心のアプローチをとる。
トークンの高度化はエントロピーの増大と圧縮の低下を招き,トークンが主にオブジェクト部品を表すことを示す。
また、視覚言語には結合的な文法構造が欠如していることが示され、自然言語と比較して難易度が高く、階層構造が弱いことが判明した。
論文 参考訳(メタデータ) (2024-11-07T18:59:28Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Patterns of Persistence and Diffusibility across the World's Languages [3.7055269158186874]
コレキシフィケーション(英: Colexification)は、複数の意味を伝えるために単一の語彙形式を用いる類似性の一種である。
我々は,言語間の類似性の言語的原因について,比較と音韻学で明らかにした。
我々は,1,966言語を対象とした意味,系譜,音韻,地理データを組み込んだ大規模グラフを構築した。
論文 参考訳(メタデータ) (2024-01-03T12:05:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Colexifications for Bootstrapping Cross-lingual Datasets: The Case of
Phonology, Concreteness, and Affectiveness [6.790979602996742]
コレキシフィケーション(英: Colexification)とは、複数の意味を伝えるために単一の語彙形式を用いる言語現象である。
世界中の21の言語ファミリーで142の言語を対象とするデータセットを作成したキュレーション手順を紹介した。
データセットには、音素と音韻の特徴でマッピングされた、具体性と感情の格付けが含まれている。
論文 参考訳(メタデータ) (2023-06-05T07:32:21Z) - The Geometry of Multilingual Language Model Representations [25.880639246639323]
我々は,言語知覚情報を各言語で符号化しながら,多言語モデルが共有多言語表現空間をどのように維持するかを評価する。
部分空間は、中層全体で比較的安定な言語感受性軸に沿って異なり、これらの軸はトークン語彙などの情報を符号化する。
言語感受性および言語ニュートラル軸に投影された表現を可視化し,言語族と音声クラスタを識別し,スパイラル,トーラス,トークン位置情報を表す曲線を可視化する。
論文 参考訳(メタデータ) (2022-05-22T23:58:24Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。