論文の概要: Phonotactic Complexity and its Trade-offs
- arxiv url: http://arxiv.org/abs/2005.03774v1
- Date: Thu, 7 May 2020 21:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:25:00.124075
- Title: Phonotactic Complexity and its Trade-offs
- Title(参考訳): Phonotactic Complexityとそのトレードオフ
- Authors: Tiago Pimentel, Brian Roark, Ryan Cotterell
- Abstract要約: この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
- 参考スコア(独自算出の注目度): 73.10961848460613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present methods for calculating a measure of phonotactic complexity---bits
per phoneme---that permits a straightforward cross-linguistic comparison. When
given a word, represented as a sequence of phonemic segments such as symbols in
the international phonetic alphabet, and a statistical model trained on a
sample of word types from the language, we can approximately measure bits per
phoneme using the negative log-probability of that word under the model. This
simple measure allows us to compare the entropy across languages, giving
insight into how complex a language's phonotactics are. Using a collection of
1016 basic concept words across 106 languages, we demonstrate a very strong
negative correlation of -0.74 between bits per phoneme and the average length
of words.
- Abstract(参考訳): 本稿では,音素毎のビット数-音素毎の音韻論的複雑性の尺度を求める手法を提案する。
国際音韻アルファベットの記号などの音韻セグメントの列や、言語からの単語タイプサンプルに基づいて訓練された統計モデルとして表現された単語を与えられると、その単語の負の対数確率を用いて音素あたりのビットをおよそ測定することができる。
この単純な測度により、言語間のエントロピーを比較することができ、言語の音韻法がいかに複雑であるかを洞察することができる。
106言語にまたがる1016の基本的な概念語の集合を用いて、音素当たりのビット数と単語の平均長との間に-0.74の強い負の相関を示す。
関連論文リスト
- Small Language Models Like Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
我々は,Llamaアーキテクチャに基づく小型モデルは,標準構文および新しい語彙/音声のベンチマークにおいて,強力な言語性能が得られることを示す。
本研究は,言語習得と処理の計算研究に適する言語学的に妥当な言語モデルを作成するための,有望な方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-02T12:36:08Z) - The Development of a Comprehensive Spanish Dictionary for Phonetic and Lexical Tagging in Socio-phonetic Research (ESPADA) [0.0]
スペイン語の方言の変種の大部分で使用可能な、スペイン語の包括的な発音辞書(ESPADA)の作成について紹介する。
ESPADAは16か国の単語を表わす628,000以上のエントリを持つ最も完全な辞書である。
これは、スペイン語の社会音声学の枠組みにおける方言研究を強化する完全なオープンソースツールを社会音声学研究者に提供することを目的としている。
論文 参考訳(メタデータ) (2024-07-22T04:51:33Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Detect Language of Transliterated Texts [0.0]
他の言語から英語へのインフォーマルな翻訳は、ソーシャルメディアのスレッド、インスタントメッセージング、ディスカッションフォーラムで一般的である。
特徴抽出のための言語識別システム(LID)を提案する。
単語を音節にトークン化し,Long Short-Term Memory (LSTM) ネットワークアーキテクチャを用いて,文字の翻訳言語を検出する。
論文 参考訳(メタデータ) (2020-04-26T10:28:02Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z) - An efficient automated data analytics approach to large scale
computational comparative linguistics [0.0]
この研究プロジェクトは、人間の言語関係を分析するという課題を克服することを目的としている。
特定のキーワードと概念の音声表現に基づく自動比較手法を開発した。
これは後にUnixシェルスクリプト、開発Rパッケージ、SWI Prologを組み合わせて実装されたワークフローの開発につながった。
論文 参考訳(メタデータ) (2020-01-31T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。