論文の概要: Information-Theoretic Characterization of Vowel Harmony: A
Cross-Linguistic Study on Word Lists
- arxiv url: http://arxiv.org/abs/2308.04885v1
- Date: Wed, 9 Aug 2023 11:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 14:03:15.394083
- Title: Information-Theoretic Characterization of Vowel Harmony: A
Cross-Linguistic Study on Word Lists
- Title(参考訳): 母音調和の情報理論的特徴付け--単語リストに関する言語横断研究
- Authors: Julius Steuer and Badr Abdullah and Johann-Mattis List and Dietrich
Klakow
- Abstract要約: 自然言語辞書における母音の予測可能性に基づく調和性の情報理論的尺度を定義する。
音素レベル言語モデル(PLM)を用いてこの調和性を推定する。
我々の研究は、単語リストが類型研究にとって貴重な資源であることを実証している。
- 参考スコア(独自算出の注目度): 18.138642719651994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a cross-linguistic study that aims to quantify vowel harmony using
data-driven computational modeling. Concretely, we define an
information-theoretic measure of harmonicity based on the predictability of
vowels in a natural language lexicon, which we estimate using phoneme-level
language models (PLMs). Prior quantitative studies have relied heavily on
inflected word-forms in the analysis of vowel harmony. We instead train our
models using cross-linguistically comparable lemma forms with little or no
inflection, which enables us to cover more under-studied languages. Training
data for our PLMs consists of word lists with a maximum of 1000 entries per
language. Despite the fact that the data we employ are substantially smaller
than previously used corpora, our experiments demonstrate the neural PLMs
capture vowel harmony patterns in a set of languages that exhibit this
phenomenon. Our work also demonstrates that word lists are a valuable resource
for typological research, and offers new possibilities for future studies on
low-resource, under-studied languages.
- Abstract(参考訳): データ駆動型計算モデルを用いて母音調和を定量化するクロス言語研究を提案する。
具体的には,自然言語レキシコンにおける母音の予測可能性に基づく調和性の情報論的尺度を定義し,音素レベル言語モデル(plm)を用いて推定する。
それまでの定量的研究は、母音調和の分析において、屈折した単語形式に大きく依存していた。
代わりに、言語横断的に比較可能な補題形式を使ってモデルをトレーニングし、ほとんどあるいは全く反映せずに、より過小評価された言語をカバーできるようにします。
PLMのトレーニングデータは、言語毎に最大1000のエントリを持つワードリストで構成されています。
これまでに使用していたコーパスに比べてデータ量がかなり小さいにもかかわらず、本実験ではこの現象を示す言語群における母音の調和パターンをニューラルplmが捉えることを実証する。
また,本研究は,単語リストがタイポロジー研究に有用な資源であることを示し,低リソース・低研究言語に新たな可能性を提供する。
関連論文リスト
- Deciphering Assamese Vowel Harmony with Featural InfoWaveGAN [2.495922096144971]
原音声データを用いた反復長距離母音調和学習のためのFeatural InfoWaveGANモデルの有用性について検討する。
Assameseは音韻論的に回帰的かつ単語境界の母音調和で知られている言語である。
本研究では,このモデルがアサメの音韻学の複雑さの把握に有効であることを実証する。
論文 参考訳(メタデータ) (2024-07-09T05:01:13Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic
Word Embeddings [19.195728241989702]
本稿では,トップダウン語彙知識を音響単語埋め込みの訓練手順に組み込んだマルチタスク学習モデルを提案する。
我々は3つの言語で実験を行い、語彙知識を取り入れることで、埋め込み空間の識別性が向上することを示した。
論文 参考訳(メタデータ) (2022-09-14T13:33:04Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。