論文の概要: Using n-aksaras to model Sanskrit and Sanskrit-adjacent texts
- arxiv url: http://arxiv.org/abs/2301.12969v1
- Date: Mon, 30 Jan 2023 15:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 14:15:30.166203
- Title: Using n-aksaras to model Sanskrit and Sanskrit-adjacent texts
- Title(参考訳): n-aksarasを使ってsanskritとsanskrit-adjacentテキストをモデル化する
- Authors: Charles Li (CNRS, CEIAS)
- Abstract要約: 本稿では,n-aksaras あるいは aksaras の連続配列を用いて,n-gram のサンスクリットテキストをトークン化する手法を提案する。
このモデルはサンスクリットに隣接したテキスト(例えば、サンスクリットのテキストに関するタミル語注釈など)でも使用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite -- or perhaps because of -- their simplicity, n-grams, or contiguous
sequences of tokens, have been used with great success in computational
linguistics since their introduction in the late 20th century. Recast as
k-mers, or contiguous sequences of monomers, they have also found applications
in computational biology. When applied to the analysis of texts, n-grams
usually take the form of sequences of words. But if we try to apply this model
to the analysis of Sanskrit texts, we are faced with the arduous task of,
firstly, resolving sandhi to split a phrase into words, and, secondly,
splitting long compounds into their components. This paper presents a simpler
method of tokenizing a Sanskrit text for n-grams, by using n-aksaras, or
contiguous sequences of aksaras. This model reduces the need for sandhi
resolution, making it much easier to use on raw text. It is also possible to
use this model on Sanskrit-adjacent texts, e.g., a Tamil commentary on a
Sanskrit text. As a test case, the commentaries on Amarakosa 1.0.1 have been
modelled as n-aksaras, showing patterns of text reuse across ten centuries and
nine languages. Some initial observations are made concerning Buddhist
commentarial practices.
- Abstract(参考訳): その単純さ、n-gram、または連続したトークン列にもかかわらず、20世紀後半に導入されて以来、計算言語学において大きな成功を収めてきた。
モノマーの連続配列であるk-merとして再キャストされ、計算生物学にも応用されている。
テキストの分析に適用する場合、n-gramは通常、単語のシーケンスの形式を取る。
しかし、サンスクリットのテキストの分析にこのモデルを適用しようとすると、まずサンディー語を単語に分解し、次に長い化合物をその構成要素に分解するという厳しい課題に直面することになる。
本稿では,n-aksaras あるいは aksaras の連続配列を用いて,n-gram のサンスクリットテキストのトークン化方法を提案する。
このモデルは、sandhi解決の必要性を減らし、生のテキストでの使用をずっと簡単にする。
このモデルはサンスクリットに隣接したテキスト(例えば、サンスクリットのテキストに関するタミル語注釈など)でも使用できる。
テストケースとして、Amarakosa 1.0.1の注釈書はn-aksarasとしてモデル化され、10世紀と9言語にわたるテキスト再利用のパターンを示している。
仏教の解説の実践について、初期の観察がなされている。
関連論文リスト
- Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Sāmayik: A Benchmark and Dataset for English-Sanskrit Translation [30.315293326789828]
S=amayikは、現代の散文で書かれた53,000の英サンスクリット文からなるデータセットである。
S=amayikは、言語教材、テキスト教育教育、オンラインチュートリアルなど、さまざまな分野からキュレーションされている。
論文 参考訳(メタデータ) (2023-05-23T12:32:24Z) - SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes [13.585440544031584]
ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
論文 参考訳(メタデータ) (2023-02-19T09:58:55Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling
Approach [8.00388161728995]
我々は、古代メソポタミアの文書の文字化を前提とした、欠落したテキストを完遂するモデルを提案する。
タブレットの劣化のため、学者はテキストの欠落部分を手作業で埋めるために文脈的な手がかりに頼っていることが多い。
論文 参考訳(メタデータ) (2021-09-09T18:58:14Z) - Itihasa: A large-scale corpus for Sanskrit to English translation [9.566221218224637]
イティハサ (Itihasa) は、サンスクリット語の93,000対のスロカとその英訳を含む大規模な翻訳データセットである。
まず、このようなデータセットのキュレーションの背後にあるモチベーションを説明し、そのニュアンスを引き出すための経験的分析を続行する。
論文 参考訳(メタデータ) (2021-06-06T22:58:13Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces [60.58900627906269]
文片を用いた代用ジェネレータとして,中国語の逆例を作成できる事前学習型言語モデルを提案する。
生成した敵の例の置換は文字や単語ではなく「テキスト」であり、中国の読者にとって自然である。
論文 参考訳(メタデータ) (2020-12-29T14:28:07Z) - Neural Compound-Word (Sandhi) Generation and Splitting in Sanskrit
Language [0.8258451067861933]
本論文では,サンスクリット語における単語合成の過程と分割に対するニューラルネットワークに基づくアプローチについて述べる。
本稿では,近代的な深層学習手法を用いて,問題をシーケンス予測タスクとして定式化する方法を提案する。
最初の完全データ駆動技術である我々のモデルは、複数の標準データセット上の既存の手法よりも精度が良いことを実証する。
論文 参考訳(メタデータ) (2020-10-24T18:02:40Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。