論文の概要: A Part-of-Speech Tagger for Yiddish: First Steps in Tagging the Yiddish
Book Center Corpus
- arxiv url: http://arxiv.org/abs/2204.01175v1
- Date: Sun, 3 Apr 2022 22:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:49:03.593511
- Title: A Part-of-Speech Tagger for Yiddish: First Steps in Tagging the Yiddish
Book Center Corpus
- Title(参考訳): Yiddishのパート・オブ・スペル: Yiddish Book Center Corpus のタグ付けへの第一歩
- Authors: Seth Kulick, Neville Ryant, Beatrice Santorini, Joel Wallenberg
- Abstract要約: これは、音声タグと構文構造をYiddishテキストに自動的に割り当てる、より大きなプロジェクトの第一歩である。
我々はYBCコーパス上の単語埋め込みを計算し、これらの埋め込みをタグモデルを用いて訓練し評価する。
また,10倍のクロスバリデーションスプリット上でのタグ付け性能を,埋め込みの有無で評価し,埋め込みによりタグ付け性能が向上することを示した。
- 参考スコア(独自算出の注目度): 2.957690025084738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe the construction and evaluation of a part-of-speech tagger for
Yiddish (the first one, to the best of our knowledge). This is the first step
in a larger project of automatically assigning part-of-speech tags and
syntactic structure to Yiddish text for purposes of linguistic research. We
combine two resources for the current work - an 80K word subset of the Penn
Parsed Corpus of Historical Yiddish (PPCHY) (Santorini, 2021) and 650 million
words of OCR'd Yiddish text from the Yiddish Book Center (YBC). We compute word
embeddings on the YBC corpus, and these embeddings are used with a tagger model
trained and evaluated on the PPCHY. Yiddish orthography in the YBC corpus has
many spelling inconsistencies, and we present some evidence that even simple
non-contextualized embeddings are able to capture the relationships among
spelling variants without the need to first "standardize" the corpus. We
evaluate the tagger performance on a 10-fold cross-validation split, with and
without the embeddings, showing that the embeddings improve tagger performance.
However, a great deal of work remains to be done, and we conclude by discussing
some next steps, including the need for additional annotated training and test
data.
- Abstract(参考訳): 本稿では,yiddish (the first one, to the best of our knowledge) のためのタガーの構築と評価について述べる。
これは、言語研究のためにYiddishテキストに音声タグと構文構造を自動的に割り当てる大規模なプロジェクトの第一歩である。
現在の作業には、Penn Parsed Corpus of Historical Yiddish (PPCHY) (Santorini, 2021) の80Kワードサブセットと、Yiddish Book Center (YBC) の OCR'd Yiddish テキストの6億5000万ワードの2つのリソースを組み合わせています。
我々はYBCコーパスに単語埋め込みを計算し、これらの埋め込みはPPCHYで訓練・評価されたタグモデルを用いて使用される。
ybcコーパスのyiddish正書法には多くの綴りの矛盾があり、単純な非文脈化埋め込みであっても、最初の「標準化」なしに綴りの変種間の関係を捉えることができるという証拠がある。
組込みの有無に関わらず、10倍のクロスバリデーションスプリットにおけるタグ性能を評価し,組込みがタグ性能を改善することを示す。
しかしながら、多くの作業が完了し続けており、追加のアノテートトレーニングやテストデータの必要性など、次のステップについて議論することで、結論付けています。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - HistRED: A Historical Document-Level Relation Extraction Dataset [32.96963890713529]
HistREDは、漢漢の古文書集「Yeonhaengnok」から造られたものである。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
本稿では,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
論文 参考訳(メタデータ) (2023-07-10T00:24:27Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - UzbekTagger: The rule-based POS tagger for Uzbek language [0.0]
本研究では,低リソースなウズベク語のための音声アノテートデータセットとタグツールを提案する。
データセットには12のタグが含まれており、ルールベースのPOSタグツールの開発に使用された。
提案されたデータセットは、Uzbekで公開された最初の種類のものだ。POS-taggerツールは、他の密接に関連するトルコ語言語のベースとして使用するためのピボットとしても使用できる。
論文 参考訳(メタデータ) (2023-01-30T07:40:45Z) - RuCoCo: a new Russian corpus with coreference annotation [69.3939291118954]
我々は、コア参照アノテーションを持つ新しいコーパス、ロシアコア参照コーパス(RuCoCo)を提案する。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りは人間のアノテーションによって機械生成のアノテーションが洗練されている。
コーパスのサイズは100万語で、約15万人が言及している。
論文 参考訳(メタデータ) (2022-06-10T07:50:09Z) - Penn-Helsinki Parsed Corpus of Early Modern English: First Parsing
Results and Analysis [2.8749014299466444]
本研究は,Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) の最初の解析結果である。
PPCEMEの重要な特徴として,Penn Treebankよりも大きく,より多様な関数タグを含む,解析の難しさを挙げる。
論文 参考訳(メタデータ) (2021-12-15T23:56:21Z) - BiSECT: Learning to Split and Rephrase Sentences with Bitexts [25.385804867037937]
この分割・言い換え処理のための新しいデータセットと新しいモデルを導入する。
BiSECTトレーニングデータは、100万の長い英語文と、より短く、意味に等価な英語文からなる。
コーパスの例を分類し、これらのカテゴリを新しいモデルで使用することにより、入力文の特定の領域を分割して編集できるようにします。
論文 参考訳(メタデータ) (2021-09-10T17:30:14Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Validation and Normalization of DCS corpus using Sanskrit Heritage tools
to build a tagged Gold Corpus [0.0]
デジタル・コーパス・オブ・サンスクリット(Digital Corpus of Sanskrit)は、その形態的および語彙的タグ付けとともに約65万の文を記録している。
サンスクリット・ヘリテージ・エンジン(英語版)の読者は、形態学的および語彙的分析を伴うあらゆる可能な区分を生産している。
論文 参考訳(メタデータ) (2020-05-13T19:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。