論文の概要: The Harrington Yowlumne Narrative Corpus
- arxiv url: http://arxiv.org/abs/2102.00610v1
- Date: Mon, 1 Feb 2021 03:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:49:15.073037
- Title: The Harrington Yowlumne Narrative Corpus
- Title(参考訳): Harrington Yowlumne Narrative Corpus
- Authors: Nathan M. White and Timothy Henry-Rodriguez
- Abstract要約: ハリントン・ヨーラムン・ナラティブ・コーパス(Harrington Yowlumne Narrative Corpus)は、1910年から1925年までカリフォルニア州カーン郡のティンリュー牧場のテホネノ・ヨーラムン・コミュニティから派生した20の物語的テキストのコーパスである。
テキストをデジタルで書き起こし、これらのテキストでゴールド標準のレキセメベースの正規化テキストを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Minority languages continue to lack adequate resources for their development,
especially in the technological domain. Likewise, the J.P. Harrington Papers
collection at the Smithsonian Institution are difficult to access in practical
terms for community members and researchers due to its handwritten and
disorganized format. Our current work seeks to make a portion of this
publicly-available yet problematic material practically accessible for natural
language processing use. Here, we present the Harrington Yowlumne Narrative
Corpus, a corpus of 20 narrative texts that derive from the Tejone\~no Yowlumne
community of the Tinliw rancheria in Kern County, California between 1910 and
1925. We digitally transcribe the texts and provide gold-standard aligned
lexeme-based normalized text with these texts. Altogether, the text contains
67,835 transcribed characters aligned with 10,721 gold standard text-normalized
words.
- Abstract(参考訳): マイノリティ言語は、特に技術分野において、開発に十分な資源を欠いている。
同様に、スミソニアン研究所のJ・P・ハリントン・ペーパーズ・コレクションは、手書きで非組織化されたフォーマットのために、コミュニティメンバーや研究者が実際にアクセスすることは困難である。
我々の現在の研究は、この公に利用できながら問題のある素材の一部を、自然言語処理で実際に利用できるものにすることを目指している。
ここでは、1910年から1925年の間、カリフォルニア州カーン郡のティンリウ牧場のテホネ・ル~ノ・ヨーラムヌコミュニティに由来する20の物語テキストのコーパスであるHarrington Yowlumne Narrative Corpusを紹介します。
テキストをデジタルで書き起こし、これらのテキストでゴールド標準のレキセメベースの正規化テキストを提供する。
さらに、67,835文字の文字が10,721文字の標準テキスト正規化語と一致する。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Lexicon and Rule-based Word Lemmatization Approach for the Somali
Language [0.0]
レマタイズ(Lemmatization)は、単語の形態的派生を根本形に変化させることによってテキストを正規化する技法である。
本稿では,ソマリ語におけるテキスト・レマティゼーションの先駆者となる。
1247の根語の初期語彙と7173の派生的関連用語に辞書に存在しない単語を補綴する規則が組み込まれている。
論文 参考訳(メタデータ) (2023-08-03T14:31:57Z) - BibleTTS: a large, high-fidelity, multilingual, and uniquely African
speech corpus [7.050790497916012]
BibleTTSは、サハラ以南のアフリカで話されている10の言語のための、大規模で高品質でオープンな音声データセットである。
コーパスは最大86時間、スタジオ品質48kHzのシングルスピーカーを言語ごとに記録する。
論文 参考訳(メタデータ) (2022-07-07T19:35:43Z) - textless-lib: a Library for Textless Spoken Language Processing [50.070693765984075]
我々はPyTorchベースのライブラリであるtextless-libを紹介した。
ライブラリが提供するビルディングブロックを説明し、そのユーザビリティを実証する。
論文 参考訳(メタデータ) (2022-02-15T12:39:42Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Tortured phrases: A dubious writing style emerging in science. Evidence
of critical issues affecting established journals [69.76097138157816]
確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。
複雑なAIを利用した生成技術は、人間のものと区別できないテキストを生成する。
一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズでいっぱいのgobbledegookを生成する。
論文 参考訳(メタデータ) (2021-07-12T20:47:08Z) - Lemmatization of Historical Old Literary Finnish Texts in Modern
Orthography [0.9023847175654602]
フィンランド語で書かれたテキストは、16世紀からフィンランド語で書かれた最初の文学作品である。
そこで本稿では,古フィンランド語を現代綴りに標準化し,分類する手法を提案する。
我々の最良のモデルは、Agricolaによって書かれたテキストの96.3%の精度と、他の現代のアウトオブドメインテキストの87.7%の精度に達する。
論文 参考訳(メタデータ) (2021-07-07T15:01:13Z) - Improving Yor\`ub\'a Diacritic Restoration [3.301896537513352]
ヨルバ語(Yorub'a)は西アフリカで広く話されている言語で、書記体系は正書法や音節の発音に富んでいる。
ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や、適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。
事前訓練されたモデル、データセット、ソースコードはすべて、Yorub'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。
論文 参考訳(メタデータ) (2020-03-23T22:07:15Z) - Shallow Discourse Annotation for Chinese TED Talks [36.167785641213925]
本研究は、TEDトークの形式として、中国語技術と中国語と英語の翻訳に新たなリソースを提供する。
このリソースは、テキストではなく、計画された音声モノローグの談話レベルプロパティに注釈をつけることに特有である。
論文 参考訳(メタデータ) (2020-03-09T10:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。