論文の概要: A Part-of-Speech Tagger for Yiddish: First Steps in Tagging the Yiddish
Book Center Corpus
- arxiv url: http://arxiv.org/abs/2204.01175v1
- Date: Sun, 3 Apr 2022 22:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:49:03.593511
- Title: A Part-of-Speech Tagger for Yiddish: First Steps in Tagging the Yiddish
Book Center Corpus
- Title(参考訳): Yiddishのパート・オブ・スペル: Yiddish Book Center Corpus のタグ付けへの第一歩
- Authors: Seth Kulick, Neville Ryant, Beatrice Santorini, Joel Wallenberg
- Abstract要約: これは、音声タグと構文構造をYiddishテキストに自動的に割り当てる、より大きなプロジェクトの第一歩である。
我々はYBCコーパス上の単語埋め込みを計算し、これらの埋め込みをタグモデルを用いて訓練し評価する。
また,10倍のクロスバリデーションスプリット上でのタグ付け性能を,埋め込みの有無で評価し,埋め込みによりタグ付け性能が向上することを示した。
- 参考スコア(独自算出の注目度): 2.957690025084738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe the construction and evaluation of a part-of-speech tagger for
Yiddish (the first one, to the best of our knowledge). This is the first step
in a larger project of automatically assigning part-of-speech tags and
syntactic structure to Yiddish text for purposes of linguistic research. We
combine two resources for the current work - an 80K word subset of the Penn
Parsed Corpus of Historical Yiddish (PPCHY) (Santorini, 2021) and 650 million
words of OCR'd Yiddish text from the Yiddish Book Center (YBC). We compute word
embeddings on the YBC corpus, and these embeddings are used with a tagger model
trained and evaluated on the PPCHY. Yiddish orthography in the YBC corpus has
many spelling inconsistencies, and we present some evidence that even simple
non-contextualized embeddings are able to capture the relationships among
spelling variants without the need to first "standardize" the corpus. We
evaluate the tagger performance on a 10-fold cross-validation split, with and
without the embeddings, showing that the embeddings improve tagger performance.
However, a great deal of work remains to be done, and we conclude by discussing
some next steps, including the need for additional annotated training and test
data.
- Abstract(参考訳): 本稿では,yiddish (the first one, to the best of our knowledge) のためのタガーの構築と評価について述べる。
これは、言語研究のためにYiddishテキストに音声タグと構文構造を自動的に割り当てる大規模なプロジェクトの第一歩である。
現在の作業には、Penn Parsed Corpus of Historical Yiddish (PPCHY) (Santorini, 2021) の80Kワードサブセットと、Yiddish Book Center (YBC) の OCR'd Yiddish テキストの6億5000万ワードの2つのリソースを組み合わせています。
我々はYBCコーパスに単語埋め込みを計算し、これらの埋め込みはPPCHYで訓練・評価されたタグモデルを用いて使用される。
ybcコーパスのyiddish正書法には多くの綴りの矛盾があり、単純な非文脈化埋め込みであっても、最初の「標準化」なしに綴りの変種間の関係を捉えることができるという証拠がある。
組込みの有無に関わらず、10倍のクロスバリデーションスプリットにおけるタグ性能を評価し,組込みがタグ性能を改善することを示す。
しかしながら、多くの作業が完了し続けており、追加のアノテートトレーニングやテストデータの必要性など、次のステップについて議論することで、結論付けています。
関連論文リスト
- Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts [65.10991154918737]
本研究は、古代中国の春・秋・戦国時代(紀元前771-256年)に用いられた中竹の文字に焦点を当てたものである。
我々のトークンライザはまず文字検出を採用して文字境界の特定を行い、次に文字レベルとサブキャラクタレベルの両方で文字認識を行う。
学術コミュニティを支援するために,100K以上の注釈付き文字イメージスキャンを備えたCBSの最初の大規模データセットも収集した。
論文 参考訳(メタデータ) (2024-09-02T07:42:55Z) - Do Pretrained Contextual Language Models Distinguish between Hebrew Homograph Analyses? [12.631897904322676]
本研究では,ヘブライ語のホモグラフの曖昧さについて,事前学習言語モデルを用いて検討する。
現代ヘブライ語における文脈的埋め込みは,非文脈的埋め込みよりも優れていることを示す。
また、これらの埋め込みは、バランスの取れた分布と歪んだ分布の両方のホモグラフに対して等しく有効であることを示す。
論文 参考訳(メタデータ) (2024-05-11T21:50:56Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - HistRED: A Historical Document-Level Relation Extraction Dataset [32.96963890713529]
HistREDは、漢漢の古文書集「Yeonhaengnok」から造られたものである。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
本稿では,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
論文 参考訳(メタデータ) (2023-07-10T00:24:27Z) - UzbekTagger: The rule-based POS tagger for Uzbek language [0.0]
本研究では,低リソースなウズベク語のための音声アノテートデータセットとタグツールを提案する。
データセットには12のタグが含まれており、ルールベースのPOSタグツールの開発に使用された。
提案されたデータセットは、Uzbekで公開された最初の種類のものだ。POS-taggerツールは、他の密接に関連するトルコ語言語のベースとして使用するためのピボットとしても使用できる。
論文 参考訳(メタデータ) (2023-01-30T07:40:45Z) - RuCoCo: a new Russian corpus with coreference annotation [69.3939291118954]
我々は、コア参照アノテーションを持つ新しいコーパス、ロシアコア参照コーパス(RuCoCo)を提案する。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りは人間のアノテーションによって機械生成のアノテーションが洗練されている。
コーパスのサイズは100万語で、約15万人が言及している。
論文 参考訳(メタデータ) (2022-06-10T07:50:09Z) - Penn-Helsinki Parsed Corpus of Early Modern English: First Parsing
Results and Analysis [2.8749014299466444]
本研究は,Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) の最初の解析結果である。
PPCEMEの重要な特徴として,Penn Treebankよりも大きく,より多様な関数タグを含む,解析の難しさを挙げる。
論文 参考訳(メタデータ) (2021-12-15T23:56:21Z) - BiSECT: Learning to Split and Rephrase Sentences with Bitexts [25.385804867037937]
この分割・言い換え処理のための新しいデータセットと新しいモデルを導入する。
BiSECTトレーニングデータは、100万の長い英語文と、より短く、意味に等価な英語文からなる。
コーパスの例を分類し、これらのカテゴリを新しいモデルで使用することにより、入力文の特定の領域を分割して編集できるようにします。
論文 参考訳(メタデータ) (2021-09-10T17:30:14Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。