論文の概要: The Open corpus of the Veps and Karelian languages: overview and
applications
- arxiv url: http://arxiv.org/abs/2206.03870v1
- Date: Wed, 8 Jun 2022 13:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 19:56:38.966909
- Title: The Open corpus of the Veps and Karelian languages: overview and
applications
- Title(参考訳): Veps 言語と Karelian 言語のオープンコーパスの概要と応用
- Authors: Tatyana Boyko, Nina Zaitseva, Natalia Krizhanovskaya, Andrew
Krizhanovsky, Irina Novak, Nataliya Pellinen and Aleksandra Rodionova
- Abstract要約: The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
- 参考スコア(独自算出の注目度): 52.77024349608834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing priority in the study of Baltic-Finnic languages of the Republic of
Karelia has been the methods and tools of corpus linguistics. Since 2016,
linguists, mathematicians, and programmers at the Karelian Research Centre have
been working with the Open Corpus of the Veps and Karelian Languages (VepKar),
which is an extension of the Veps Corpus created in 2009. The VepKar corpus
comprises texts in Karelian and Veps, multifunctional dictionaries linked to
them, and software with an advanced system of search using various criteria of
the texts (language, genre, etc.) and numerous linguistic categories (lexical
and grammatical search in texts was implemented thanks to the generator of word
forms that we created earlier). A corpus of 3000 texts was compiled, texts were
uploaded and marked up, the system for classifying texts into languages,
dialects, types and genres was introduced, and the word-form generator was
created. Future plans include developing a speech module for working with audio
recordings and a syntactic tagging module using morphological analysis outputs.
Owing to continuous functional advancements in the corpus manager and ongoing
VepKar enrichment with new material and text markup, users can handle a wide
range of scientific and applied tasks. In creating the universal national
VepKar corpus, its developers and managers strive to preserve and exhibit as
fully as possible the state of the Veps and Karelian languages in the 19th-21st
centuries.
- Abstract(参考訳): カレリア共和国のバルト・フィン語研究における最優先事項はコーパス言語学の方法と道具である。
2016年以降、カレリア研究センターの言語学者、数学者、プログラマは、2009年に設立されたVep Corpusの延長であるOpen Corpus of the Veps and Karelian Languages (VepKar)と協働している。
VepKar コーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、およびテキスト(言語、ジャンルなど)の様々な基準と多くの言語カテゴリーを用いた高度な検索システムを備えたソフトウェアから構成される。
3000本のコーパスが編纂され、テキストがアップロードされてマークアップされ、テキストを言語、方言、タイプ、ジャンルに分類するシステムが導入された。
今後の計画としては、音声録音を扱う音声モジュールと形態素解析出力を用いた構文タグモジュールの開発がある。
コーパスマネージャの継続的な機能向上と、新しい素材とテキストマークアップによるvepkarの強化により、ユーザは幅広い科学的および応用的なタスクを処理できる。
普遍的なVepKarコーパスを創設する際、開発者と管理者は19世紀から21世紀にかけてのヴェプス語とカレリア語の状態の保存と展示に全力を尽くした。
関連論文リスト
- A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Carolina: a General Corpus of Contemporary Brazilian Portuguese with
Provenance, Typology and Versioning Information [0.629199190108771]
カロライナは、ウェブ・アズ・コーパス・方法論を用いて建設中のブラジルのポルトガル語テキストの大規模なオープンコーパスである。
カロライナで最初の公開バージョンは653,322,577ドルのトークンで、7ドル以上の広さに分散している。
論文 参考訳(メタデータ) (2023-03-28T16:09:40Z) - Creating a morphological and syntactic tagged corpus for the Uzbek
language [0.0]
ウズベク語の構文的および形態学的タグ付けコーパスを作成するための新しい音声部分(POS)と構文的タグセットを開発する。
開発したアノテーションツールとソフトウェアに基づいて,タグ付きコーパス生成の第1段階の経験結果を共有する。
論文 参考訳(メタデータ) (2022-10-27T07:44:12Z) - TArC: Tunisian Arabish Corpus First complete release [0.0]
我々は、アラビジでエンコードされたチュニジアのアラビア語に関するプロジェクトの最終結果を示す。
このプロジェクトは2つの統合された独立したリソースの創出につながった。
論文 参考訳(メタデータ) (2022-07-11T11:46:59Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - A frame semantics based approach to comparative study of digitized
corpus [0.0]
本論文は, デジタル化小説から作成された英語・アラビア語対応コーパスの形態的, 構文的, 意味的アノテーションプロセスに焦点を当てたものである。
本研究では,言語間での運動事象の概念化の違いを,フレーム構造とフレーム間関係で記述することができることを論じる。
論文 参考訳(メタデータ) (2020-05-29T22:56:25Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。