論文の概要: A Corpus for Large-Scale Phonetic Typology
- arxiv url: http://arxiv.org/abs/2005.13962v1
- Date: Thu, 28 May 2020 13:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 05:10:58.270259
- Title: A Corpus for Large-Scale Phonetic Typology
- Title(参考訳): 大規模音声タイポロジーのためのコーパス
- Authors: Elizabeth Salesky, Eleanor Chodroff, Tiago Pimentel, Matthew Wiesner,
Ryan Cotterell, Alan W Black and Jason Eisner
- Abstract要約: 本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
- 参考スコア(独自算出の注目度): 112.19288631037055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major hurdle in data-driven research on typology is having sufficient data
in many languages to draw meaningful conclusions. We present VoxClamantis v1.0,
the first large-scale corpus for phonetic typology, with aligned segments and
estimated phoneme-level labels in 690 readings spanning 635 languages, along
with acoustic-phonetic measures of vowels and sibilants. Access to such data
can greatly facilitate investigation of phonetic typology at a large scale and
across many languages. However, it is non-trivial and computationally intensive
to obtain such alignments for hundreds of languages, many of which have few to
no resources presently available. We describe the methodology to create our
corpus, discuss caveats with current methods and their impact on the utility of
this data, and illustrate possible research directions through a series of case
studies on the 48 highest-quality readings. Our corpus and scripts are publicly
available for non-commercial use at https://voxclamantisproject.github.io.
- Abstract(参考訳): タイポロジーに関するデータ駆動研究における大きなハードルは、意味のある結論を引き出すために、多くの言語で十分なデータを持つことである。
我々は635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと、母音とシビラントの音響・音韻測定を併用した最初の音素タイプ分類用大規模コーパスであるVoxClamantis v1.0を提示する。
このようなデータへのアクセスは、大規模で多くの言語で音韻的タイポロジーの調査を大いに助ける。
しかし、数百の言語でそのようなアライメントを得るのは非自明で計算集約的であり、その多くが現在利用可能なリソースは少ない。
コーパスを作成するための方法論を解説し、現在の手法とそれらのデータの有用性への影響を議論し、48の最高品質読解に関する一連のケーススタディを通して研究の方向性を説明する。
私たちのコーパスとスクリプトは、https://voxclamantisproject.github.io.com/commercial useで公開されています。
関連論文リスト
- Phonetically rich corpus construction for a low-resourced language [0.0]
本稿では,低音源言語に対する幅広い音声カバレッジを持つテキストコーパスを作成するための新しい手法を提案する。
提案手法は,三声分布に基づく文選択アルゴリズムまでのテキストデータセットの収集を含む。
アルゴリズムを用いて、同様のサイズのサンプルに対して、異なるトリフォンの比率が55.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T16:36:11Z) - Massively Multilingual Corpus of Sentiment Datasets and Multi-faceted
Sentiment Classification Benchmark [7.888702613862612]
この研究は、感情モデルをトレーニングするためのデータセットの大規模なオープンな多言語コーパスを提示する。
コーパスは、科学文献で報告された350以上のデータセットから、79個の手動で選択されたデータセットで構成されている。
本稿では,異なるベースモデル,トレーニング目標,データセット収集,微調整戦略などを用いて実施した数百の実験を要約した多面的感情分類ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-13T16:54:13Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech
Recognition: the Arman-AV Dataset [2.594602184695942]
本稿では,ペルシャ語のための多目的音声視覚データセットを提案する。
約220時間の動画と1760人の話者で構成されている。
データセットは自動音声認識、音声視覚音声認識、話者認識に適している。
論文 参考訳(メタデータ) (2023-01-21T05:13:30Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Simple or Complex? Learning to Predict Readability of Bengali Texts [6.860272388539321]
ベンガル語で書かれたテキストを解析できる可読性解析ツールを提案する。
2億3000万人のネイティブスピーカーを持つ世界で7番目に話されている言語であるにもかかわらず、ベンガル語は自然言語処理の基本的なリソースが不足している。
論文 参考訳(メタデータ) (2020-12-09T01:41:35Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。