論文の概要: Neural Compound-Word (Sandhi) Generation and Splitting in Sanskrit
Language
- arxiv url: http://arxiv.org/abs/2010.12940v1
- Date: Sat, 24 Oct 2020 18:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:09:42.764064
- Title: Neural Compound-Word (Sandhi) Generation and Splitting in Sanskrit
Language
- Title(参考訳): サンスクリット語におけるsandhi(neural compound-word)の生成と分割
- Authors: Sushant Dave, Arun Kumar Singh, Dr. Prathosh A. P. and Prof. Brejesh
Lall
- Abstract要約: 本論文では,サンスクリット語における単語合成の過程と分割に対するニューラルネットワークに基づくアプローチについて述べる。
本稿では,近代的な深層学習手法を用いて,問題をシーケンス予測タスクとして定式化する方法を提案する。
最初の完全データ駆動技術である我々のモデルは、複数の標準データセット上の既存の手法よりも精度が良いことを実証する。
- 参考スコア(独自算出の注目度): 0.8258451067861933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes neural network based approaches to the process of the
formation and splitting of word-compounding, respectively known as the Sandhi
and Vichchhed, in Sanskrit language. Sandhi is an important idea essential to
morphological analysis of Sanskrit texts. Sandhi leads to word transformations
at word boundaries. The rules of Sandhi formation are well defined but complex,
sometimes optional and in some cases, require knowledge about the nature of the
words being compounded. Sandhi split or Vichchhed is an even more difficult
task given its non uniqueness and context dependence. In this work, we propose
the route of formulating the problem as a sequence to sequence prediction task,
using modern deep learning techniques. Being the first fully data driven
technique, we demonstrate that our model has an accuracy better than the
existing methods on multiple standard datasets, despite not using any
additional lexical or morphological resources. The code is being made available
at https://github.com/IITD-DataScience/Sandhi_Prakarana
- Abstract(参考訳): 本稿では,サンスクリット語における単語表現の形成と分割の過程について,それぞれsandhiとvichchhedとして知られているニューラルネットワークを用いたアプローチについて述べる。
サンディはサンスクリット語文の形態解析に不可欠な重要な思想である。
sandhiは単語境界での単語変換に繋がる。
サンディー形成の規則はよく定義されているが、複雑であり、時にはオプションであり、場合によっては複合化される単語の性質に関する知識を必要とする。
Sandhi split あるいは Vichchhed は、その非ユニークさとコンテキスト依存性を考えると、さらに難しいタスクである。
本研究では,最新の深層学習手法を用いて,シーケンス予測タスクとして問題を定式化する経路を提案する。
完全データ駆動型手法としては初めて,辞書や形態素のリソースを使わずに複数の標準データセット上の既存の手法よりも精度が良いことを実証した。
コードはhttps://github.com/iitd-datascience/sandhi_prakaranaで入手できる。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Linguistically-Informed Neural Architectures for Lexical, Syntactic and
Semantic Tasks in Sanskrit [1.184066113335041]
この論文は、サンスクリット写本を自然言語技術を通じてエンドユーザーにとってよりアクセスしやすくすることを目的としている。
サンスクリットの形態的豊かさ、複合性、自由語順性、低リソース性は、ディープラーニングソリューションを開発する上で重要な課題となっている。
我々は,サンスクリットの堅牢なNLP技術開発に不可欠な4つの基本課題を特定した。
論文 参考訳(メタデータ) (2023-08-17T06:33:33Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - Using n-aksaras to model Sanskrit and Sanskrit-adjacent texts [0.0]
本稿では,n-aksaras あるいは aksaras の連続配列を用いて,n-gram のサンスクリットテキストをトークン化する手法を提案する。
このモデルはサンスクリットに隣接したテキスト(例えば、サンスクリットのテキストに関するタミル語注釈など)でも使用できる。
論文 参考訳(メタデータ) (2023-01-30T15:17:06Z) - TransLIST: A Transformer-Based Linguistically Informed Sanskrit
Tokenizer [11.608920658638976]
サンスクリットワードアルゴリズム(SWS)は、デジタル化されたテキストを利用できるようにし、下流のタスクをデプロイするのに不可欠である。
我々はTransLIST(Transformer based Linguistically Informed Sanskrit Tokenizer)を提案する。
TransLISTは、SWS特有のサンディー現象を考慮した潜在単語情報と共に文字入力を符号化する。
論文 参考訳(メタデータ) (2022-10-21T06:15:40Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Enhancing Sindhi Word Segmentation using Subword Representation Learning and Position-aware Self-attention [19.520840812910357]
シンディー語のセグメンテーションは、宇宙の欠落と挿入の問題のために難しい課題である。
既存のシンディー語のセグメンテーション手法は手作りの機能の設計と組み合わせに依存している。
本稿では,単語分割をシーケンスラベリングタスクとして扱うサブワードガイド型ニューラルワードセグメンタ(SGNWS)を提案する。
論文 参考訳(メタデータ) (2020-12-30T08:31:31Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。