論文の概要: SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes
- arxiv url: http://arxiv.org/abs/2302.09527v1
- Date: Sun, 19 Feb 2023 09:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:59:35.339948
- Title: SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes
- Title(参考訳): SanskritShala: 教育とアノテーションのためのWebベースのインタフェースを備えたニューラルサンスクリットNLPツールキット
- Authors: Jivnesh Sandhan, Anshul Agarwal, Laxmidhar Behera, Tushar Sandhan and
Pawan Goyal
- Abstract要約: ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
- 参考スコア(独自算出の注目度): 13.585440544031584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a neural Sanskrit Natural Language Processing (NLP) toolkit named
SanskritShala (a school of Sanskrit) to facilitate computational linguistic
analyses for several tasks such as word segmentation, morphological tagging,
dependency parsing, and compound type identification. Our systems currently
report state-of-the-art performance on available benchmark datasets for all
tasks. SanskritShala is deployed as a web-based application, which allows a
user to get real-time analysis for the given input. It is built with
easy-to-use interactive data annotation features that allow annotators to
correct the system predictions when it makes mistakes. We publicly release the
source codes of the 4 modules included in the toolkit, 7 word embedding models
that have been trained on publicly available Sanskrit corpora and multiple
annotated datasets such as word similarity, relatedness, categorization,
analogy prediction to assess intrinsic properties of word embeddings. So far as
we know, this is the first neural-based Sanskrit NLP toolkit that has a
web-based interface and a number of NLP modules. We are sure that the people
who are willing to work with Sanskrit will find it useful for pedagogical and
annotative purposes. SanskritShala is available at:
https://cnerg.iitkgp.ac.in/sanskritshala. The demo video of our platform can be
accessed at: https://youtu.be/x0X31Y9k0mw4.
- Abstract(参考訳): サンスクリット自然言語処理(nlp)ツールキットsanskritshala(サンスクリット学派)を用いて,単語のセグメンテーション,形態的タグ付け,係り受け解析,複合型識別など,いくつかのタスクの計算言語解析を容易にする。
現在、我々のシステムはあらゆるタスクのベンチマークデータセットに最先端のパフォーマンスを報告しています。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
簡単に使えるインタラクティブなデータアノテーション機能で構築されており、アノテータがミスを犯したときのシステムの予測を修正できる。
ツールキットに含まれる4つのモジュールのソースコード、サンスクリットコーパスで訓練された7つのワード埋め込みモデル、および単語類似性、関連性、分類、アナロジー予測などのアノテーション付きデータセットを公開し、単語埋め込みの固有の特性を評価する。
われわれが知る限り、これはWebベースのインターフェースと多数のNLPモジュールを備えた、最初のニューラルベースのNLPツールキットである。
サンスクリットと協力する意思のある人々は、教育的および注釈的な目的に役に立つと確信している。
SanskritShala は以下の https://cnerg.iitkgp.ac.in/sanskritshala で利用可能である。
私たちのプラットフォームのデモビデオは、https://youtu.be/x0x31y9k0mw4で閲覧できます。
関連論文リスト
- Linguistically-Informed Neural Architectures for Lexical, Syntactic and
Semantic Tasks in Sanskrit [1.184066113335041]
この論文は、サンスクリット写本を自然言語技術を通じてエンドユーザーにとってよりアクセスしやすくすることを目的としている。
サンスクリットの形態的豊かさ、複合性、自由語順性、低リソース性は、ディープラーニングソリューションを開発する上で重要な課題となっている。
我々は,サンスクリットの堅牢なNLP技術開発に不可欠な4つの基本課題を特定した。
論文 参考訳(メタデータ) (2023-08-17T06:33:33Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Part-of-Speech Tagging of Odia Language Using statistical and Deep
Learning-Based Approaches [0.0]
本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。
文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-07-07T12:15:23Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Experimental Evaluation of Deep Learning models for Marathi Text
Classification [0.0]
CNN, LSTM, ULMFiT, BERT ベースのモデルを, 2つの公開 Marathi テキスト分類データセットで評価する。
CNNとLSTMに基づく基本単層モデルとFastTextの埋め込みは、利用可能なデータセット上でBERTベースのモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2021-01-13T06:21:27Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - An Augmented Translation Technique for low Resource language pair:
Sanskrit to Hindi translation [0.0]
本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。
サンスクリット語からヒンディー語への翻訳では、データが不足しているのと同じアーキテクチャがテストされている。
データストレージのメモリ使用量を削減するため,単語埋め込みの次元化を行う。
論文 参考訳(メタデータ) (2020-06-09T17:01:55Z) - Neural Approaches for Data Driven Dependency Parsing in Sanskrit [19.844420181108177]
我々は、もともと異なる言語向けに提案された4つの異なるデータ駆動機械学習モデルを評価し、サンスクリットデータの性能を比較した。
低リソース環境での各モデルのパフォーマンスを1500文のトレーニングで比較する。
また,これらのシステムに対して文を入力として提供する単語順序付けの影響について,詩文とその対応する散文順序を解析することによって検討する。
論文 参考訳(メタデータ) (2020-04-17T06:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。