論文の概要: Linguistically-Informed Neural Architectures for Lexical, Syntactic and
Semantic Tasks in Sanskrit
- arxiv url: http://arxiv.org/abs/2308.08807v1
- Date: Thu, 17 Aug 2023 06:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:46:11.085754
- Title: Linguistically-Informed Neural Architectures for Lexical, Syntactic and
Semantic Tasks in Sanskrit
- Title(参考訳): サンスクリットにおける語彙的・構文的・意味的課題のための言語学的インフォームドニューラルアーキテクチャ
- Authors: Jivnesh Sandhan
- Abstract要約: この論文は、サンスクリット写本を自然言語技術を通じてエンドユーザーにとってよりアクセスしやすくすることを目的としている。
サンスクリットの形態的豊かさ、複合性、自由語順性、低リソース性は、ディープラーニングソリューションを開発する上で重要な課題となっている。
我々は,サンスクリットの堅牢なNLP技術開発に不可欠な4つの基本課題を特定した。
- 参考スコア(独自算出の注目度): 1.184066113335041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary focus of this thesis is to make Sanskrit manuscripts more
accessible to the end-users through natural language technologies. The
morphological richness, compounding, free word orderliness, and low-resource
nature of Sanskrit pose significant challenges for developing deep learning
solutions. We identify four fundamental tasks, which are crucial for developing
a robust NLP technology for Sanskrit: word segmentation, dependency parsing,
compound type identification, and poetry analysis. The first task, Sanskrit
Word Segmentation (SWS), is a fundamental text processing task for any other
downstream applications. However, it is challenging due to the sandhi
phenomenon that modifies characters at word boundaries. Similarly, the existing
dependency parsing approaches struggle with morphologically rich and
low-resource languages like Sanskrit. Compound type identification is also
challenging for Sanskrit due to the context-sensitive semantic relation between
components. All these challenges result in sub-optimal performance in NLP
applications like question answering and machine translation. Finally, Sanskrit
poetry has not been extensively studied in computational linguistics.
While addressing these challenges, this thesis makes various contributions:
(1) The thesis proposes linguistically-informed neural architectures for these
tasks. (2) We showcase the interpretability and multilingual extension of the
proposed systems. (3) Our proposed systems report state-of-the-art performance.
(4) Finally, we present a neural toolkit named SanskritShala, a web-based
application that provides real-time analysis of input for various NLP tasks.
Overall, this thesis contributes to making Sanskrit manuscripts more accessible
by developing robust NLP technology and releasing various resources, datasets,
and web-based toolkit.
- Abstract(参考訳): この論文の主な焦点は、サンスクリット写本を自然言語技術を通じてエンドユーザーにとってよりアクセスしやすいものにすることである。
サンスクリットの形態的豊かさ、複合化、自由語の順序付け、低リソース性は、ディープラーニングソリューションを開発する上で大きな課題となる。
単語分割,依存性解析,複合型識別,詩解析という,サンスクリット語のための堅牢なNLP技術開発に不可欠な4つの基本課題を同定する。
最初のタスクであるSanskrit Word Segmentation (SWS)は、他のダウンストリームアプリケーションのための基本的なテキスト処理タスクである。
しかし、単語境界における文字を修飾するサンディー現象のため、これは困難である。
同様に、既存の依存関係解析のアプローチは、sanskritのような形態学的にリッチで低リソースな言語に苦しむ。
サンスクリットでは、コンポーネント間の文脈依存的な意味関係のため、複合型識別も困難である。
これらの課題はすべて、質問応答や機械翻訳のようなNLPアプリケーションにおける準最適性能をもたらす。
最後に、サンスクリット詩は計算言語学では広く研究されていない。
1) この論文は、これらのタスクに対して言語的に変形したニューラルアーキテクチャを提案する。
2)提案するシステムの解釈可能性と多言語拡張について紹介する。
3) 提案システムは, 最先端の性能を報告している。
(4) 最後に,様々なNLPタスクの入力をリアルタイムに解析するWebベースのアプリケーションであるSanskritShalaを提案する。
全体として、この論文は、堅牢なnlp技術を開発し、様々なリソース、データセット、webベースのツールキットをリリースすることにより、サンスクリット写本をよりアクセスしやすくするのに役立つ。
関連論文リスト
- One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks [26.848664285007022]
ByT5-Sanskritは、形態的にリッチなサンスクリット言語を含むNLPアプリケーション向けに設計された。
外部の言語資源によってカバーされていないデータへのデプロイが容易で、より堅牢である。
提案手法は,他の形態学的にリッチな言語に対する補題化と依存関係解析のための新たなベストスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-09-20T22:02:26Z) - Multilingual Evaluation of Semantic Textual Relatedness [0.0]
意味的テクスト関係性(STR)は、言語的要素や話題、感情、視点といった非言語的要素を考慮して、表面的な単語重複を越えている。
以前のNLP研究は主に英語に焦点を合わせており、言語間の適用性を制限している。
Marathi、Hindi、スペイン語、英語でSTRを探索し、情報検索や機械翻訳などの可能性を解き放つ。
論文 参考訳(メタデータ) (2024-04-13T17:16:03Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes [13.585440544031584]
ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
論文 参考訳(メタデータ) (2023-02-19T09:58:55Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - A Novel Multi-Task Learning Approach for Context-Sensitive Compound Type
Identification in Sanskrit [13.742271198030998]
本稿では,文脈情報を組み込んだ新しいマルチタスク学習アーキテクチャを提案する。
SaCTIのベンチマークデータセットの実験では、最先端システムと比較して6.1ポイント(精度)と7.7ポイント(F1スコア)の絶対ゲインを示している。
論文 参考訳(メタデータ) (2022-08-22T13:41:51Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - Evaluating Neural Word Embeddings for Sanskrit [12.94058963622324]
単語の埋め込みを幅広いカテゴリに分類し、体系的な実験を促進し、4つの本質的なタスクで評価する。
本研究では,サンスクリット語以外の言語で最初に提案された埋め込み手法の有効性と,言語による様々な課題について検討する。
論文 参考訳(メタデータ) (2021-04-01T06:08:21Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。