論文の概要: Estimating related words computationally using language model from the
Mahabharata - an Indian epic
- arxiv url: http://arxiv.org/abs/2305.05420v1
- Date: Tue, 9 May 2023 13:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:50:26.302430
- Title: Estimating related words computationally using language model from the
Mahabharata - an Indian epic
- Title(参考訳): インドの叙事詩『マハーバーラタ』から言語モデルを用いた関連語の推定
- Authors: Vrunda Gadesha, Keyur D Joshi, Shefali Naik
- Abstract要約: 「マハーバーラタ」は、多くの諸藩で完全に異なる目的に言及されている多くのインド文学の中で最も人気がある。
本稿では,最も大きなエピックである「マハーバーラタ」の単語探索手法とともに,いくつかの統計的および計算的洞察を得るためのNLPパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 'Mahabharata' is the most popular among many Indian pieces of literature
referred to in many domains for completely different purposes. This text itself
is having various dimension and aspects which is useful for the human being in
their personal life and professional life. This Indian Epic is originally
written in the Sanskrit Language. Now in the era of Natural Language
Processing, Artificial Intelligence, Machine Learning, and Human-Computer
interaction this text can be processed according to the domain requirement. It
is interesting to process this text and get useful insights from Mahabharata.
The limitation of the humans while analyzing Mahabharata is that they always
have a sentiment aspect towards the story narrated by the author. Apart from
that, the human cannot memorize statistical or computational details, like
which two words are frequently coming in one sentence? What is the average
length of the sentences across the whole literature? Which word is the most
popular word across the text, what are the lemmas of the words used across the
sentences? Thus, in this paper, we propose an NLP pipeline to get some
statistical and computational insights along with the most relevant word
searching method from the largest epic 'Mahabharata'. We stacked the different
text-processing approaches to articulate the best results which can be further
used in the various domain where Mahabharata needs to be referred.
- Abstract(参考訳): 「マハバラータ」は、諸藩で言及される多くのインド文学の中で、全く異なる目的のために最も人気がある。
このテキスト自体は、個人的生活や職業的生活において、人間にとって有用な様々な次元と側面を持っている。
このインドの叙事詩は元々サンスクリット語で書かれている。
現在、自然言語処理、人工知能、機械学習、人間とコンピュータの相互作用の時代において、このテキストはドメイン要件に従って処理できる。
このテキストを処理して、mahabharata氏から有用な洞察を得ることは興味深い。
マハーバーラタの分析における人間の限界は、著者の物語に対する感情的側面が常にあることである。
それとは別に、人間は統計や計算の詳細を記憶することはできない。
文学全体の文章の平均の長さはどのくらいですか。
どの単語がテキストで一番人気のある単語で、文で使われる単語の補題は何ですか?
そこで本稿では,最も大きなエピックである「マハーバーラタ」の単語探索手法とともに,いくつかの統計的および計算的洞察を得るためのNLPパイプラインを提案する。
さまざまなテキスト処理アプローチを積み重ねて,mahabharataの参照が必要なさまざまな領域で,さらに活用可能な最高の結果を明確にしました。
関連論文リスト
- Spot the bot: Coarse-Grained Partition of Semantic Paths for Bots and
Humans [55.2480439325792]
本稿では,人書きテキストとボット生成テキストのセマンティックパスの粗粒度分割構造の比較に焦点をあてる。
意味構造が言語によって異なる可能性があるため、ロシア語、英語、ドイツ語、ベトナム語を調査する。
論文 参考訳(メタデータ) (2024-02-27T10:38:37Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Mukhyansh: A Headline Generation Dataset for Indic Languages [4.583536403673757]
Mukhyanshは、インド語の見出し生成に適した、広範囲にわたる多言語データセットである。
ムハーンシュ語は3億3900万以上の記事の見出しから成り、8つの著名なインドの言語にまたがっている。
Mukhyanshは、他のすべてのモデルより優れており、平均ROUGE-Lスコアは8言語すべてで31.43である。
論文 参考訳(メタデータ) (2023-11-29T15:49:24Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Semantic and sentiment analysis of selected Bhagavad Gita translations
using BERT-based language framework [0.4125187280299248]
バガヴァド・ギーガ(Bhagavad Gita)は、サンスクリットで書かれた古代ヒンドゥー教の哲学書で、マハーバーラタ戦争の前にクリシュナ卿とアルジュナの会話を描いている。
本稿では,Bhagavad Gitaから選択された翻訳文(主にサンスクリット語から英語)を,意味分析と感情分析を用いて比較する。
論文 参考訳(メタデータ) (2022-01-09T23:59:11Z) - "A Passage to India": Pre-trained Word Embeddings for Indian Languages [30.607474624873014]
既存のアプローチを使って、14のインドの言語に複数の単語を埋め込みます。
これらすべての言語への組み込みを単一のリポジトリに配置します。
8つの異なるアプローチを使って、合計436のモデルをリリースします。
論文 参考訳(メタデータ) (2021-12-27T17:31:04Z) - Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文 参考訳(メタデータ) (2021-02-23T16:47:41Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Anubhuti -- An annotated dataset for emotional analysis of Bengali short
stories [2.3424047967193826]
アヌブティはベンガルの短編小説の著者が表現した感情を分析するための最初の、そして最大のテキストコーパスである。
本稿では,データ収集手法,手作業によるアノテーション処理,そして結果として生じるハイアノテータ間の合意について説明する。
我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットの性能を検証した。
論文 参考訳(メタデータ) (2020-10-06T22:33:58Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z) - Linguistic Resources for Bhojpuri, Magahi and Maithili: Statistics about
them, their Similarity Estimates, and Baselines for Three Applications [0.6649753747542209]
Bhojpuri、Magahi、Maithiliはインドのプルヴァンチャル地方の低資源言語である。
我々は,これらのコーパスについて,文字,単語,音節,形態素レベルでの基本的な統計的尺度を算出した。
結果は標準ヒンディー語コーパスと比較された。
論文 参考訳(メタデータ) (2020-04-29T03:58:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。