論文の概要: Evaluating Neural Word Embeddings for Sanskrit
- arxiv url: http://arxiv.org/abs/2104.00270v1
- Date: Thu, 1 Apr 2021 06:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 03:26:43.245440
- Title: Evaluating Neural Word Embeddings for Sanskrit
- Title(参考訳): サンスクリットにおけるニューラルワード埋め込みの評価
- Authors: Jivnesh Sandhan, Om Adideva, Digumarthi Komal, Laxmidhar Behera, and
Pawan Goyal
- Abstract要約: 単語の埋め込みを幅広いカテゴリに分類し、体系的な実験を促進し、4つの本質的なタスクで評価する。
本研究では,サンスクリット語以外の言語で最初に提案された埋め込み手法の有効性と,言語による様々な課題について検討する。
- 参考スコア(独自算出の注目度): 12.94058963622324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the supervised learning paradigm's surprisingly remarkable
performance has garnered considerable attention from Sanskrit Computational
Linguists. As a result, the Sanskrit community has put laudable efforts to
build task-specific labeled data for various downstream Natural Language
Processing (NLP) tasks. The primary component of these approaches comes from
representations of word embeddings. Word embedding helps to transfer knowledge
learned from readily available unlabelled data for improving task-specific
performance in low-resource setting. Last decade, there has been much
excitement in the field of digitization of Sanskrit. To effectively use such
readily available resources, it is very much essential to perform a systematic
study on word embedding approaches for the Sanskrit language. In this work, we
investigate the effectiveness of word embeddings. We classify word embeddings
in broad categories to facilitate systematic experimentation and evaluate them
on four intrinsic tasks. We investigate the efficacy of embeddings approaches
(originally proposed for languages other than Sanskrit) for Sanskrit along with
various challenges posed by language.
- Abstract(参考訳): 近年、教師付き学習パラダイムの驚くべきパフォーマンスは、サンスクリット計算言語学者からかなりの注目を集めている。
その結果、サンスクリットのコミュニティは、様々な下流自然言語処理(NLP)タスクのためのタスク固有のラベル付きデータを構築するために、有望な努力を払っている。
これらのアプローチの主な構成要素は、単語埋め込みの表現である。
単語埋め込みは、容易に手に入らないデータから学んだ知識を転送し、低リソース設定でのタスク固有のパフォーマンスを改善するのに役立つ。
過去10年間、サンスクリットのデジタル化の分野は大いに興奮してきた。
このような手軽な資源を効果的に活用するには、サンスクリット語に対する単語埋め込みアプローチの体系的な研究が不可欠である。
本研究では,単語埋め込みの有効性について検討する。
単語の埋め込みを幅広いカテゴリに分類し、体系的な実験を促進し、4つの本質的なタスクで評価する。
我々はサンスクリット語に対する埋め込みアプローチ(もともとサンスクリット語以外の言語に対して提案された)の有効性と言語による様々な課題について検討する。
関連論文リスト
- One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks [26.848664285007022]
ByT5-Sanskritは、形態的にリッチなサンスクリット言語を含むNLPアプリケーション向けに設計された。
外部の言語資源によってカバーされていないデータへのデプロイが容易で、より堅牢である。
提案手法は,他の形態学的にリッチな言語に対する補題化と依存関係解析のための新たなベストスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-09-20T22:02:26Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Linguistically-Informed Neural Architectures for Lexical, Syntactic and
Semantic Tasks in Sanskrit [1.184066113335041]
この論文は、サンスクリット写本を自然言語技術を通じてエンドユーザーにとってよりアクセスしやすくすることを目的としている。
サンスクリットの形態的豊かさ、複合性、自由語順性、低リソース性は、ディープラーニングソリューションを開発する上で重要な課題となっている。
我々は,サンスクリットの堅牢なNLP技術開発に不可欠な4つの基本課題を特定した。
論文 参考訳(メタデータ) (2023-08-17T06:33:33Z) - A Comprehensive Empirical Evaluation of Existing Word Embedding
Approaches [5.065947993017158]
既存の単語埋め込み手法の特徴を概説し,多くの分類タスクについて解析する。
伝統的なアプローチでは、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えることができない。
一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捕捉し、生成した単語表現における単語関係を保存することができる。
論文 参考訳(メタデータ) (2023-03-13T15:34:19Z) - SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes [13.585440544031584]
ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
論文 参考訳(メタデータ) (2023-02-19T09:58:55Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。