論文の概要: A Second Wave of UD Hebrew Treebanking and Cross-Domain Parsing
- arxiv url: http://arxiv.org/abs/2210.07873v2
- Date: Tue, 18 Oct 2022 14:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 10:34:21.382597
- Title: A Second Wave of UD Hebrew Treebanking and Cross-Domain Parsing
- Title(参考訳): udヘブライ語木バンクとクロスドメイン解析の第2波
- Authors: Amir Zeldes, Nick Howell, Noam Ordan and Yifat Ben Moshe
- Abstract要約: 本稿では,ヘブライ語ウィキペディアから選択したさまざまなトピックから,新たに自由なヘブライ語のUDツリーバンクを提案する。
コーパスの導入とアノテーションの品質評価に加えて,成長度に基づいて自動検証ツールをデプロイする。
我々は、最新の言語モデリングと既存のトランスフォーマーベースのアプローチの漸進的な改善を組み合わせて、UD NLPタスクにおける新しい最先端(SOTA)結果を得る。
- 参考スコア(独自算出の注目度): 8.373151777137792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundational Hebrew NLP tasks such as segmentation, tagging and parsing, have
relied to date on various versions of the Hebrew Treebank (HTB, Sima'an et al.
2001). However, the data in HTB, a single-source newswire corpus, is now over
30 years old, and does not cover many aspects of contemporary Hebrew on the
web. This paper presents a new, freely available UD treebank of Hebrew
stratified from a range of topics selected from Hebrew Wikipedia. In addition
to introducing the corpus and evaluating the quality of its annotations, we
deploy automatic validation tools based on grew (Guillaume, 2021), and conduct
the first cross domain parsing experiments in Hebrew. We obtain new
state-of-the-art (SOTA) results on UD NLP tasks, using a combination of the
latest language modelling and some incremental improvements to existing
transformer based approaches. We also release a new version of the UD HTB
matching annotation scheme updates from our new corpus.
- Abstract(参考訳): セグメンテーション、タグ付け、構文解析などの基礎的ヘブライNLPタスクは、ヘブライツリーバンク(HTB, Sima'an et al. 2001)の様々なバージョンに依存している。
しかし、シングルソースのnewswireコーパスであるhtbのデータは現在30年以上経っており、web上の同時代のヘブライ語の多くの側面をカバーしていない。
本稿では,ヘブライ語ウィキペディアから選択したさまざまなトピックから,自由なヘブライ語のUDツリーバンクを提案する。
コーパスの導入とアノテーションの品質評価に加えて、成長した(Guillaume, 2021)に基づいて自動検証ツールをデプロイし、ヘブライ語で最初のクロスドメイン解析実験を行った。
我々は、最新の言語モデリングと既存のトランスフォーマーベースのアプローチの漸進的な改善を組み合わせて、UD NLPタスクにおける新しい最先端(SOTA)結果を得る。
私たちはまた、新しいコーパスから、ud htbマッチングアノテーションスキームのアップデートを新しいバージョンでリリースします。
関連論文リスト
- HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing [22.74199529315638]
HebDBはヘブライ語における音声言語処理のための弱い教師付きデータセットである。
HebDBはヘブライ語で、約2500時間の自然と自然の音声記録を提供している。
論文 参考訳(メタデータ) (2024-07-10T11:51:26Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Introducing DictaLM -- A Large Generative Language Model for Modern
Hebrew [2.1547347528250875]
現代ヘブライ語に合わせた大規模言語モデルであるDictaLMについて紹介する。
ヘブライ語における研究・開発促進の取り組みとして,創造コモンズライセンスの下で基礎モデルと教科モデルの両方をリリースする。
論文 参考訳(メタデータ) (2023-09-25T22:42:09Z) - DictaBERT: A State-of-the-Art BERT Suite for Modern Hebrew [2.421705925711388]
DictaBERTは、現代ヘブライ語のための最先端のトレーニング済みBERTモデルである。
ヘブライ語テキストの分析において,3つの基礎的なタスクを実行するために設計した3つの細調整バージョンをリリースする。
論文 参考訳(メタデータ) (2023-08-31T12:43:18Z) - ParaShoot: A Hebrew Question Answering Dataset [22.55706811131828]
ParaShootは現代のヘブライ語で最初の質問応答データセットである。
我々は最近リリースされたヘブライ語のためのBERTスタイルのモデルを用いて,最初のベースライン結果を提供する。
論文 参考訳(メタデータ) (2021-09-23T11:59:38Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Building a Hebrew Semantic Role Labeling Lexical Resource from Parallel
Movie Subtitles [4.089055556130724]
本稿では,英語からのアノテーション投影によって半自動構築されたヘブライ語における意味的役割のラベル付け資源を提案する。
このコーパスは多言語OpenSubtitlesデータセットから派生し、短い非公式文を含む。
FrameNetとPropBankの両スタイルで、形態解析、依存性の構文、セマンティックロールのラベル付けを含む、完全に注釈付けされたデータを提供する。
我々は、このヘブライ語リソース上で、事前訓練された多言語BERTトランスフォーマーモデルを利用して、ニューラルネットワークSRLモデルをトレーニングし、基準点として、Hebrew SRLの最初のベースラインモデルを提供する。
論文 参考訳(メタデータ) (2020-05-17T10:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。