論文の概要: A Part-of-Speech Tagger for Yiddish
- arxiv url: http://arxiv.org/abs/2204.01175v2
- Date: Fri, 18 Aug 2023 16:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 01:36:21.438695
- Title: A Part-of-Speech Tagger for Yiddish
- Title(参考訳): yiddish (複数形 yiddishs)
- Authors: Seth Kulick, Neville Ryant, Beatrice Santorini, Joel Wallenberg, Assaf
Urieli
- Abstract要約: これは、音声タグと構文構造をYiddishテキストに自動的に割り当てる、より大きなプロジェクトの第一歩である。
現在の作業には2つのリソース – Penn Parsed Corpus of Historical Yiddish (PPCHY)の80Kワードサブセットと,Yiddish Book Center (YBC)のOCRのYiddishテキストの6億5000万ワード – が組み合わされている。
我々は、YBCで訓練された単純な非文脈的埋め込みでさえ、まずコーパスを「標準化」することなく、綴り変種間の関係を捉えることができることを示す。
- 参考スコア(独自算出の注目度): 4.57670708264108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe the construction and evaluation of a part-of-speech tagger for
Yiddish. This is the first step in a larger project of automatically assigning
part-of-speech tags and syntactic structure to Yiddish text for purposes of
linguistic research. We combine two resources for the current work - an
80K-word subset of the Penn Parsed Corpus of Historical Yiddish (PPCHY) and 650
million words of OCR'd Yiddish text from the Yiddish Book Center (YBC). Yiddish
orthography in the YBC corpus has many spelling inconsistencies, and we present
some evidence that even simple non-contextualized embeddings trained on YBC are
able to capture the relationships among spelling variants without the need to
first "standardize" the corpus. We also use YBC for continued pretraining of
contexualized embeddings, which are then integrated into a tagger model trained
and evaluated on the PPCHY. We evaluate the tagger performance on a 10-fold
cross-validation split, showing that the use of the YBC text for the
contextualized embeddings improves tagger performance. We conclude by
discussing some next steps, including the need for additional annotated
training and test data.
- Abstract(参考訳): 本稿では,Yiddishのための音声タグの構築と評価について述べる。
これは、言語研究のためにYiddishテキストに音声タグと構文構造を自動的に割り当てる大規模なプロジェクトの第一歩である。
現在の作業には、Penn Parsed Corpus of Historical Yiddish(PPCHY)の80Kワードサブセットと、Yiddish Book Center(YBC)のOCRのYiddishテキストの6億5000万ワードという2つのリソースを組み合わせています。
YBCコーパスのYiddish正書法にはスペルの不整合が多数あり、YBCで訓練された単純な非コンテクスト化埋め込みでさえ、最初のコーパスを「標準化」することなく、スペル変種間の関係を捉えることができることを示す証拠がいくつかある。
また,ybcを,ppchy上で訓練および評価したタガーモデルに統合した,同軸埋め込みの継続事前学習にも用いる。
10倍のクロスバリデーションスプリットにおけるタガー性能を評価し,コンテキスト化埋め込みにおけるybcテキストの使用によりタガー性能が向上することを示す。
最後に,アノテーション付きトレーニングやテストデータの追加など,次のステップについて論じる。
関連論文リスト
- Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts [65.10991154918737]
本研究は、古代中国の春・秋・戦国時代(紀元前771-256年)に用いられた中竹の文字に焦点を当てたものである。
我々のトークンライザはまず文字検出を採用して文字境界の特定を行い、次に文字レベルとサブキャラクタレベルの両方で文字認識を行う。
学術コミュニティを支援するために,100K以上の注釈付き文字イメージスキャンを備えたCBSの最初の大規模データセットも収集した。
論文 参考訳(メタデータ) (2024-09-02T07:42:55Z) - Do Pretrained Contextual Language Models Distinguish between Hebrew Homograph Analyses? [12.631897904322676]
本研究では,ヘブライ語のホモグラフの曖昧さについて,事前学習言語モデルを用いて検討する。
現代ヘブライ語における文脈的埋め込みは,非文脈的埋め込みよりも優れていることを示す。
また、これらの埋め込みは、バランスの取れた分布と歪んだ分布の両方のホモグラフに対して等しく有効であることを示す。
論文 参考訳(メタデータ) (2024-05-11T21:50:56Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - HistRED: A Historical Document-Level Relation Extraction Dataset [32.96963890713529]
HistREDは、漢漢の古文書集「Yeonhaengnok」から造られたものである。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
本稿では,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
論文 参考訳(メタデータ) (2023-07-10T00:24:27Z) - UzbekTagger: The rule-based POS tagger for Uzbek language [0.0]
本研究では,低リソースなウズベク語のための音声アノテートデータセットとタグツールを提案する。
データセットには12のタグが含まれており、ルールベースのPOSタグツールの開発に使用された。
提案されたデータセットは、Uzbekで公開された最初の種類のものだ。POS-taggerツールは、他の密接に関連するトルコ語言語のベースとして使用するためのピボットとしても使用できる。
論文 参考訳(メタデータ) (2023-01-30T07:40:45Z) - RuCoCo: a new Russian corpus with coreference annotation [69.3939291118954]
我々は、コア参照アノテーションを持つ新しいコーパス、ロシアコア参照コーパス(RuCoCo)を提案する。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りは人間のアノテーションによって機械生成のアノテーションが洗練されている。
コーパスのサイズは100万語で、約15万人が言及している。
論文 参考訳(メタデータ) (2022-06-10T07:50:09Z) - Penn-Helsinki Parsed Corpus of Early Modern English: First Parsing
Results and Analysis [2.8749014299466444]
本研究は,Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME) の最初の解析結果である。
PPCEMEの重要な特徴として,Penn Treebankよりも大きく,より多様な関数タグを含む,解析の難しさを挙げる。
論文 参考訳(メタデータ) (2021-12-15T23:56:21Z) - BiSECT: Learning to Split and Rephrase Sentences with Bitexts [25.385804867037937]
この分割・言い換え処理のための新しいデータセットと新しいモデルを導入する。
BiSECTトレーニングデータは、100万の長い英語文と、より短く、意味に等価な英語文からなる。
コーパスの例を分類し、これらのカテゴリを新しいモデルで使用することにより、入力文の特定の領域を分割して編集できるようにします。
論文 参考訳(メタデータ) (2021-09-10T17:30:14Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。