論文の概要: Contemporary Amharic Corpus: Automatically Morpho-Syntactically Tagged
Amharic Corpus
- arxiv url: http://arxiv.org/abs/2106.07241v1
- Date: Mon, 14 Jun 2021 08:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:10:53.633844
- Title: Contemporary Amharic Corpus: Automatically Morpho-Syntactically Tagged
Amharic Corpus
- Title(参考訳): 現代アンモリックコーパス:自動形態素合成タグ付きアンモリックコーパス
- Authors: Andargachew Mekonnen Gezmu, Binyam Ephrem Seyoum, Michael Gasser and
Andreas N\"urnberger
- Abstract要約: Amharic corpusは部分的にウェブコーパスである。
テキストは、異なるドメインから25,199の文書から収集される。
約2400万の正書法語がトークン化されている。
- 参考スコア(独自算出の注目度): 0.04915744683251149
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduced the contemporary Amharic corpus, which is automatically tagged
for morpho-syntactic information. Texts are collected from 25,199 documents
from different domains and about 24 million orthographic words are tokenized.
Since it is partly a web corpus, we made some automatic spelling error
correction. We have also modified the existing morphological analyzer,
HornMorpho, to use it for the automatic tagging.
- Abstract(参考訳): 我々は,モルフォシンタクティック情報にタグ付けされた現代アンハリックコーパスを導入した。
テキストは、異なるドメインの25,199件の文書から収集され、約2400万語がトークン化されている。
一部はウェブコーパスであるため,スペル誤りの自動修正を行った。
また,既存の形態素解析器である hornmorpho を改良して,自動タグ付けに用いた。
関連論文リスト
- WikiNER-fr-gold: A Gold-Standard NER Corpus [1.7205106391379026]
WikiNERコーパス,多言語名前付きエンティティ認識コーパスの品質に対処し,その統合版を提供する。
本稿では,WikiNERのフランス語比率の改訂版であるWikiNER-fr-goldを提案する。
本稿では,WikiNER-frコーパスで観測された誤りと不整合の分析を行い,今後の仕事の方向性について考察する。
論文 参考訳(メタデータ) (2024-10-29T08:00:16Z) - The Russian Legislative Corpus [0.0]
コーパスは281,413通のテキスト(176,523,268通のトークン)とメタデータを収集する。
コーパスには、最小限の事前処理を備えた原文と、モルフォシンタクティックマークアップを用いた言語解析のためのバージョンの2つのバージョンがある。
論文 参考訳(メタデータ) (2024-06-07T11:38:12Z) - Understanding the effects of word-level linguistic annotations in
under-resourced neural machine translation [0.0]
本稿では,低リソースのニューラルマシン翻訳における単語レベルの言語アノテーションの効果について検討する。
音声のパート・オブ・音声タグは、自動評価指標の点からモルフォ・シンタクティック記述タグよりも体系的に優れている。
論文 参考訳(メタデータ) (2024-01-29T11:39:46Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Validation and Normalization of DCS corpus using Sanskrit Heritage tools
to build a tagged Gold Corpus [0.0]
デジタル・コーパス・オブ・サンスクリット(Digital Corpus of Sanskrit)は、その形態的および語彙的タグ付けとともに約65万の文を記録している。
サンスクリット・ヘリテージ・エンジン(英語版)の読者は、形態学的および語彙的分析を伴うあらゆる可能な区分を生産している。
論文 参考訳(メタデータ) (2020-05-13T19:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。