論文の概要: Validation and Normalization of DCS corpus using Sanskrit Heritage tools
to build a tagged Gold Corpus
- arxiv url: http://arxiv.org/abs/2005.06545v1
- Date: Wed, 13 May 2020 19:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 13:07:25.665242
- Title: Validation and Normalization of DCS corpus using Sanskrit Heritage tools
to build a tagged Gold Corpus
- Title(参考訳): タグ付きゴールドコーパス構築のためのサンスクリット遺産ツールを用いたdcsコーパスの検証と正規化
- Authors: Sriram Krishnan and Amba Kulkarni and G\'erard Huet
- Abstract要約: デジタル・コーパス・オブ・サンスクリット(Digital Corpus of Sanskrit)は、その形態的および語彙的タグ付けとともに約65万の文を記録している。
サンスクリット・ヘリテージ・エンジン(英語版)の読者は、形態学的および語彙的分析を伴うあらゆる可能な区分を生産している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Digital Corpus of Sanskrit records around 650,000 sentences along with
their morphological and lexical tagging. But inconsistencies in morphological
analysis, and in providing crucial information like the segmented word, urges
the need for standardization and validation of this corpus. Automating the
validation process requires efficient analyzers which also provide the missing
information. The Sanskrit Heritage Engine's Reader produces all possible
segmentations with morphological and lexical analyses. Aligning these systems
would help us in recording the linguistic differences, which can be used to
update these systems to produce standardized results and will also provide a
Gold corpus tagged with complete morphological and lexical information along
with the segmented words. Krishna et al. (2017) aligned 115,000 sentences,
considering some of the linguistic differences. As both these systems have
evolved significantly, the alignment is done again considering all the
remaining linguistic differences between these systems. This paper describes
the modified alignment process in detail and records the additional linguistic
differences observed.
Reference: Amrith Krishna, Pavankumar Satuluri, and Pawan Goyal. 2017. A
dataset for Sanskrit word segmentation. In Proceedings of the Joint SIGHUM
Workshop on Computational Linguistics for Cultural Heritage, Social Sciences,
Humanities and Literature, page 105-114. Association for Computational
Linguistics, August.
- Abstract(参考訳): サンスクリットのデジタルコーパスは、その形態的および語彙的タグ付けとともに約65万文を記録している。
しかし形態素解析の矛盾や、セグメンテーションされた単語のような重要な情報の提供では、このコーパスの標準化と検証の必要性が求められる。
検証プロセスを自動化するには効率的なアナライザが必要である。
サンスクリット・ヘリテージ・エンジン (sanskrit heritage engine) の読者は、形態学的および語彙的分析によって可能な全てのセグメントを生成する。
これらのシステムを調整することは、言語の違いを記録するのに役立ち、これらのシステムを更新して標準化された結果を生成するのに役立ち、また、セグメント化された単語とともに、完全な形態情報と語彙情報をタグ付けしたゴールドコーパスも提供します。
Krishna et al. (2017) は言語的な違いを考慮して115,000の文を並べた。
どちらのシステムも大きく進化してきたため、これらのシステム間の言語的な違いをすべて考慮し、アライメントは再び行われる。
本稿では,修正アライメントの過程を詳細に記述し,追加の言語的差異を記録する。
参考:Amrith Krishna、Pavankumar Satuluri、Pawan Goyal。
2017.
サンスクリット単語分割のためのデータセット。
The Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, page 105-114
計算言語学協会、8月。
関連論文リスト
- Developing an Informal-Formal Persian Corpus [0.0]
単語/フレーズレベルのアライメントを持つ5万文ペアの並列コーパスを構築する。
結果として得られたコーパスは約530,000のアライメントを持ち、辞書には49,397の単語対とフレーズ対が含まれている。
論文 参考訳(メタデータ) (2023-08-10T04:57:34Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - A Benchmark Corpus and Neural Approach for Sanskrit Derivative Nouns
Analysis [0.755972004983746]
本稿では,サンスクリット・プラティヤ(接尾辞)と接尾辞(接尾辞)による屈折語(パダ)の最初のベンチマークコーパスを提案する。
本研究では,Sanskrit suffix ベンチマークコーパスである Pratyaya-Kosh を作成し,ツールの性能評価を行った。
我々はまた、最も著名なサンスクリット形態解析ツールで同じことを評価しながら、派生名詞分析のための独自のニューラルアプローチを提示する。
論文 参考訳(メタデータ) (2020-10-24T17:22:44Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Linguistic Resources for Bhojpuri, Magahi and Maithili: Statistics about
them, their Similarity Estimates, and Baselines for Three Applications [0.6649753747542209]
Bhojpuri、Magahi、Maithiliはインドのプルヴァンチャル地方の低資源言語である。
我々は,これらのコーパスについて,文字,単語,音節,形態素レベルでの基本的な統計的尺度を算出した。
結果は標準ヒンディー語コーパスと比較された。
論文 参考訳(メタデータ) (2020-04-29T03:58:55Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。