Fugu-MT 論文翻訳(概要): Validation and Normalization of DCS corpus using Sanskrit Heritage tools to build a tagged Gold Corpus

論文の概要: Validation and Normalization of DCS corpus using Sanskrit Heritage tools to build a tagged Gold Corpus

arxiv url: http://arxiv.org/abs/2005.06545v1
Date: Wed, 13 May 2020 19:23:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-03 13:07:25.665242
Title: Validation and Normalization of DCS corpus using Sanskrit Heritage tools to build a tagged Gold Corpus
Title（参考訳）: タグ付きゴールドコーパス構築のためのサンスクリット遺産ツールを用いたdcsコーパスの検証と正規化
Authors: Sriram Krishnan and Amba Kulkarni and G\'erard Huet
Abstract要約: デジタル・コーパス・オブ・サンスクリット(Digital Corpus of Sanskrit)は、その形態的および語彙的タグ付けとともに約65万の文を記録している。サンスクリット・ヘリテージ・エンジン(英語版)の読者は、形態学的および語彙的分析を伴うあらゆる可能な区分を生産している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Digital Corpus of Sanskrit records around 650,000 sentences along with their morphological and lexical tagging. But inconsistencies in morphological analysis, and in providing crucial information like the segmented word, urges the need for standardization and validation of this corpus. Automating the validation process requires efficient analyzers which also provide the missing information. The Sanskrit Heritage Engine's Reader produces all possible segmentations with morphological and lexical analyses. Aligning these systems would help us in recording the linguistic differences, which can be used to update these systems to produce standardized results and will also provide a Gold corpus tagged with complete morphological and lexical information along with the segmented words. Krishna et al. (2017) aligned 115,000 sentences, considering some of the linguistic differences. As both these systems have evolved significantly, the alignment is done again considering all the remaining linguistic differences between these systems. This paper describes the modified alignment process in detail and records the additional linguistic differences observed. Reference: Amrith Krishna, Pavankumar Satuluri, and Pawan Goyal. 2017. A dataset for Sanskrit word segmentation. In Proceedings of the Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, page 105-114. Association for Computational Linguistics, August.
Abstract（参考訳）: サンスクリットのデジタルコーパスは、その形態的および語彙的タグ付けとともに約65万文を記録している。しかし形態素解析の矛盾や、セグメンテーションされた単語のような重要な情報の提供では、このコーパスの標準化と検証の必要性が求められる。検証プロセスを自動化するには効率的なアナライザが必要である。サンスクリット・ヘリテージ・エンジン (sanskrit heritage engine) の読者は、形態学的および語彙的分析によって可能な全てのセグメントを生成する。これらのシステムを調整することは、言語の違いを記録するのに役立ち、これらのシステムを更新して標準化された結果を生成するのに役立ち、また、セグメント化された単語とともに、完全な形態情報と語彙情報をタグ付けしたゴールドコーパスも提供します。 Krishna et al. (2017) は言語的な違いを考慮して115,000の文を並べた。どちらのシステムも大きく進化してきたため、これらのシステム間の言語的な違いをすべて考慮し、アライメントは再び行われる。本稿では,修正アライメントの過程を詳細に記述し,追加の言語的差異を記録する。参考:Amrith Krishna、Pavankumar Satuluri、Pawan Goyal。 2017. サンスクリット単語分割のためのデータセット。 The Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, page 105-114 計算言語学協会、8月。

関連論文リスト

Simultaneous Speech-to-Speech Translation Without Aligned Data [52.467808474293605]
同時音声翻訳では、ソース音声を対象言語にリアルタイムで翻訳する必要がある。単語レベルのアライメントを完全に不要にするヒビキゼロを提案する。 Hibiki-Zeroは5つのX-英語タスクの翻訳精度、レイテンシ、音声転送、自然性において最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-02-11T17:41:01Z)
CorIL: Towards Enriching Indian Language to Indian Language Parallel Corpora and Machine Translation Systems [18.521673953685575]
インドの言語風景は世界でも最も多様であり、120以上の主要言語と1,600以上の追加言語から構成されている。最近の多言語ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、インドの言語に対する高品質な並列コーパスは依然として乏しい。本稿では,11言語を対象とした大規模で高品質な並列コーパスを提案する。
論文参考訳（メタデータ） (2025-09-24T09:48:26Z)
LEVOS: Leveraging Vocabulary Overlap with Sanskrit to Generate Technical Lexicons in Indian Languages [39.08623113730563]
技術的用語の言語情報翻訳のためのサンスクリットに基づくセグメントの新規な利用法を提案する。提案手法では,意味のあるサブワード単位の識別に文字レベルセグメンテーションを用いる。我々はサンスクリットから派生したセグメントを用いた技術用語翻訳のための2つの実験的な設定における一貫した改善を観察する。
論文参考訳（メタデータ） (2024-07-08T18:50:13Z)
Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文参考訳（メタデータ） (2024-04-29T17:58:36Z)
Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文参考訳（メタデータ） (2024-04-09T11:39:53Z)
Developing an Informal-Formal Persian Corpus [0.0]
単語/フレーズレベルのアライメントを持つ5万文ペアの並列コーパスを構築する。結果として得られたコーパスは約530,000のアライメントを持ち、辞書には49,397の単語対とフレーズ対が含まれている。
論文参考訳（メタデータ） (2023-08-10T04:57:34Z)
A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文参考訳（メタデータ） (2023-05-29T11:54:50Z)
CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。 CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文参考訳（メタデータ） (2022-11-04T12:56:12Z)
A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文参考訳（メタデータ） (2021-09-13T21:05:37Z)
A Benchmark Corpus and Neural Approach for Sanskrit Derivative Nouns Analysis [0.755972004983746]
本稿では,サンスクリット・プラティヤ(接尾辞)と接尾辞(接尾辞)による屈折語(パダ)の最初のベンチマークコーパスを提案する。本研究では,Sanskrit suffix ベンチマークコーパスである Pratyaya-Kosh を作成し,ツールの性能評価を行った。我々はまた、最も著名なサンスクリット形態解析ツールで同じことを評価しながら、派生名詞分析のための独自のニューラルアプローチを提示する。
論文参考訳（メタデータ） (2020-10-24T17:22:44Z)
A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。 635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文参考訳（メタデータ） (2020-05-28T13:03:51Z)
Linguistic Resources for Bhojpuri, Magahi and Maithili: Statistics about them, their Similarity Estimates, and Baselines for Three Applications [0.6649753747542209]
Bhojpuri、Magahi、Maithiliはインドのプルヴァンチャル地方の低資源言語である。我々は,これらのコーパスについて,文字,単語,音節,形態素レベルでの基本的な統計的尺度を算出した。結果は標準ヒンディー語コーパスと比較された。
論文参考訳（メタデータ） (2020-04-29T03:58:55Z)
Investigating Language Impact in Bilingual Approaches for Computational Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文参考訳（メタデータ） (2020-03-30T10:30:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。