論文の概要: Validation and Normalization of DCS corpus using Sanskrit Heritage tools
to build a tagged Gold Corpus
- arxiv url: http://arxiv.org/abs/2005.06545v1
- Date: Wed, 13 May 2020 19:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 13:07:25.665242
- Title: Validation and Normalization of DCS corpus using Sanskrit Heritage tools
to build a tagged Gold Corpus
- Title(参考訳): タグ付きゴールドコーパス構築のためのサンスクリット遺産ツールを用いたdcsコーパスの検証と正規化
- Authors: Sriram Krishnan and Amba Kulkarni and G\'erard Huet
- Abstract要約: デジタル・コーパス・オブ・サンスクリット(Digital Corpus of Sanskrit)は、その形態的および語彙的タグ付けとともに約65万の文を記録している。
サンスクリット・ヘリテージ・エンジン(英語版)の読者は、形態学的および語彙的分析を伴うあらゆる可能な区分を生産している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Digital Corpus of Sanskrit records around 650,000 sentences along with
their morphological and lexical tagging. But inconsistencies in morphological
analysis, and in providing crucial information like the segmented word, urges
the need for standardization and validation of this corpus. Automating the
validation process requires efficient analyzers which also provide the missing
information. The Sanskrit Heritage Engine's Reader produces all possible
segmentations with morphological and lexical analyses. Aligning these systems
would help us in recording the linguistic differences, which can be used to
update these systems to produce standardized results and will also provide a
Gold corpus tagged with complete morphological and lexical information along
with the segmented words. Krishna et al. (2017) aligned 115,000 sentences,
considering some of the linguistic differences. As both these systems have
evolved significantly, the alignment is done again considering all the
remaining linguistic differences between these systems. This paper describes
the modified alignment process in detail and records the additional linguistic
differences observed.
Reference: Amrith Krishna, Pavankumar Satuluri, and Pawan Goyal. 2017. A
dataset for Sanskrit word segmentation. In Proceedings of the Joint SIGHUM
Workshop on Computational Linguistics for Cultural Heritage, Social Sciences,
Humanities and Literature, page 105-114. Association for Computational
Linguistics, August.
- Abstract(参考訳): サンスクリットのデジタルコーパスは、その形態的および語彙的タグ付けとともに約65万文を記録している。
しかし形態素解析の矛盾や、セグメンテーションされた単語のような重要な情報の提供では、このコーパスの標準化と検証の必要性が求められる。
検証プロセスを自動化するには効率的なアナライザが必要である。
サンスクリット・ヘリテージ・エンジン (sanskrit heritage engine) の読者は、形態学的および語彙的分析によって可能な全てのセグメントを生成する。
これらのシステムを調整することは、言語の違いを記録するのに役立ち、これらのシステムを更新して標準化された結果を生成するのに役立ち、また、セグメント化された単語とともに、完全な形態情報と語彙情報をタグ付けしたゴールドコーパスも提供します。
Krishna et al. (2017) は言語的な違いを考慮して115,000の文を並べた。
どちらのシステムも大きく進化してきたため、これらのシステム間の言語的な違いをすべて考慮し、アライメントは再び行われる。
本稿では,修正アライメントの過程を詳細に記述し,追加の言語的差異を記録する。
参考:Amrith Krishna、Pavankumar Satuluri、Pawan Goyal。
2017.
サンスクリット単語分割のためのデータセット。
The Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, page 105-114
計算言語学協会、8月。
関連論文リスト
- Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Developing an Informal-Formal Persian Corpus [0.0]
単語/フレーズレベルのアライメントを持つ5万文ペアの並列コーパスを構築する。
結果として得られたコーパスは約530,000のアライメントを持ち、辞書には49,397の単語対とフレーズ対が含まれている。
論文 参考訳(メタデータ) (2023-08-10T04:57:34Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - A Benchmark Corpus and Neural Approach for Sanskrit Derivative Nouns
Analysis [0.755972004983746]
本稿では,サンスクリット・プラティヤ(接尾辞)と接尾辞(接尾辞)による屈折語(パダ)の最初のベンチマークコーパスを提案する。
本研究では,Sanskrit suffix ベンチマークコーパスである Pratyaya-Kosh を作成し,ツールの性能評価を行った。
我々はまた、最も著名なサンスクリット形態解析ツールで同じことを評価しながら、派生名詞分析のための独自のニューラルアプローチを提示する。
論文 参考訳(メタデータ) (2020-10-24T17:22:44Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Linguistic Resources for Bhojpuri, Magahi and Maithili: Statistics about
them, their Similarity Estimates, and Baselines for Three Applications [0.6649753747542209]
Bhojpuri、Magahi、Maithiliはインドのプルヴァンチャル地方の低資源言語である。
我々は,これらのコーパスについて,文字,単語,音節,形態素レベルでの基本的な統計的尺度を算出した。
結果は標準ヒンディー語コーパスと比較された。
論文 参考訳(メタデータ) (2020-04-29T03:58:55Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。