論文の概要: A Benchmark Corpus and Neural Approach for Sanskrit Derivative Nouns
Analysis
- arxiv url: http://arxiv.org/abs/2010.12937v1
- Date: Sat, 24 Oct 2020 17:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:10:01.865511
- Title: A Benchmark Corpus and Neural Approach for Sanskrit Derivative Nouns
Analysis
- Title(参考訳): サンスクリット派生名詞分析のためのベンチマークコーパスとニューラルアプローチ
- Authors: Arun Kumar Singh, Sushant Dave, Dr. Prathosh A. P., Prof. Brejesh Lall
and Shresth Mehta
- Abstract要約: 本稿では,サンスクリット・プラティヤ(接尾辞)と接尾辞(接尾辞)による屈折語(パダ)の最初のベンチマークコーパスを提案する。
本研究では,Sanskrit suffix ベンチマークコーパスである Pratyaya-Kosh を作成し,ツールの性能評価を行った。
我々はまた、最も著名なサンスクリット形態解析ツールで同じことを評価しながら、派生名詞分析のための独自のニューラルアプローチを提示する。
- 参考スコア(独自算出の注目度): 0.755972004983746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents first benchmark corpus of Sanskrit Pratyaya (suffix) and
inflectional words (padas) formed due to suffixes along with neural network
based approaches to process the formation and splitting of inflectional words.
Inflectional words spans the primary and secondary derivative nouns as the
scope of current work. Pratyayas are an important dimension of morphological
analysis of Sanskrit texts. There have been Sanskrit Computational Linguistics
tools for processing and analyzing Sanskrit texts. Unfortunately there has not
been any work to standardize & validate these tools specifically for derivative
nouns analysis. In this work, we prepared a Sanskrit suffix benchmark corpus
called Pratyaya-Kosh to evaluate the performance of tools. We also present our
own neural approach for derivative nouns analysis while evaluating the same on
most prominent Sanskrit Morphological Analysis tools. This benchmark will be
freely dedicated and available to researchers worldwide and we hope it will
motivate all to improve morphological analysis in Sanskrit Language.
- Abstract(参考訳): 本稿では,接尾辞に起因して形成されたsanskrit pratyaya (接尾辞) とinflectional words (padas) のベンチマークコーパスと,inflectional wordsの形成と分割を処理するニューラルネットワークによるアプローチについて述べる。
屈折語は、現在の作業の範囲として一次および二次微分名詞にまたがる。
プラティヤはサンスクリット語文の形態解析の重要な次元である。
サンスクリットのテキストを処理および分析するためのサンスクリット計算言語学ツールがある。
残念ながら、派生名詞分析のためにこれらのツールを標準化して検証する作業は行われていない。
本研究では,Sanskrit suffixベンチマークコーパスである Pratyaya-Kosh を作成し,ツールの性能評価を行った。
また,最も著名なサンスクリット形態素解析ツールを用いて,派生名詞分析のための独自のニューラルアプローチを提案する。
このベンチマークは世界中の研究者に無料で提供され、サンスクリット語の形態素解析を改善する動機となることを願っている。
関連論文リスト
- Morphology and Syntax of the Tamil Language [0.0]
この論文は、形態学的および構文学的特徴の観点から、タミルの複雑さと豊かさを強調している。
規則に基づく形態素解析の累積生成器として証明され,すでにタミルの計算文法が開発されている。
論文 参考訳(メタデータ) (2024-01-16T13:52:25Z) - Linguistically-Informed Neural Architectures for Lexical, Syntactic and
Semantic Tasks in Sanskrit [1.184066113335041]
この論文は、サンスクリット写本を自然言語技術を通じてエンドユーザーにとってよりアクセスしやすくすることを目的としている。
サンスクリットの形態的豊かさ、複合性、自由語順性、低リソース性は、ディープラーニングソリューションを開発する上で重要な課題となっている。
我々は,サンスクリットの堅牢なNLP技術開発に不可欠な4つの基本課題を特定した。
論文 参考訳(メタデータ) (2023-08-17T06:33:33Z) - Sentiment Analysis Using Aligned Word Embeddings for Uralic Languages [1.0312968200748118]
本稿では,単語埋め込みを多数言語から4つの少数言語に翻訳する手法を提案する。
さらに、感情分析を行うために、英語データに基づいてトレーニングされた新しいニューラルネットワークモデルを提案する。
我々の研究は、最先端のニューラルモデルが絶滅危惧言語で使用できることを示している。
論文 参考訳(メタデータ) (2023-05-24T17:40:20Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Neural disambiguation of lemma and part of speech in morphologically
rich languages [0.6346772579930928]
形態的に豊かな言語における不明瞭な単語の補題と発話の一部を曖昧にすることの問題点を考察する。
そこで本稿では, テキストの未注釈コーパスと形態素解析を用いて, 文脈におけるあいまいな単語の曖昧さを解消する手法を提案する。
論文 参考訳(メタデータ) (2020-07-12T21:48:52Z) - Validation and Normalization of DCS corpus using Sanskrit Heritage tools
to build a tagged Gold Corpus [0.0]
デジタル・コーパス・オブ・サンスクリット(Digital Corpus of Sanskrit)は、その形態的および語彙的タグ付けとともに約65万の文を記録している。
サンスクリット・ヘリテージ・エンジン(英語版)の読者は、形態学的および語彙的分析を伴うあらゆる可能な区分を生産している。
論文 参考訳(メタデータ) (2020-05-13T19:23:43Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。