論文の概要: Artificial intelligence for topic modelling in Hindu philosophy: mapping
themes between the Upanishads and the Bhagavad Gita
- arxiv url: http://arxiv.org/abs/2205.11020v1
- Date: Mon, 23 May 2022 03:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 13:10:30.583500
- Title: Artificial intelligence for topic modelling in Hindu philosophy: mapping
themes between the Upanishads and the Bhagavad Gita
- Title(参考訳): ヒンドゥー哲学におけるトピックモデリングのための人工知能--upanishadとbhagavad gitaのテーマのマッピング
- Authors: Rohitash Chandra, Mukul Ranjan
- Abstract要約: BERTのような先進的な言語を使用して、UpanishadとBhagavad Gitaの重要なテキストのトピックモデリングを提供します。
その結果,2つのテキストのトピック間の類似度は非常に高く,平均コサイン類似度は73%であった。
私たちの最高のパフォーマンスモデルは、Bhagavad Gitaで73%、The Upanishadsで69%のコヒーレンススコアを与えています。
- 参考スコア(独自算出の注目度): 0.4125187280299248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A distinct feature of Hindu religious and philosophical text is that they
come from a library of texts rather than single source. The Upanishads is known
as one of the oldest philosophical texts in the world that forms the foundation
of Hindu philosophy. The Bhagavad Gita is core text of Hindu philosophy and is
known as a text that summarises the key philosophies of the Upanishads with
major focus on the philosophy of karma. These texts have been translated into
many languages and there exists studies about themes and topics that are
prominent; however, there is not much study of topic modelling using language
models which are powered by deep learning. In this paper, we use advanced
language produces such as BERT to provide topic modelling of the key texts of
the Upanishads and the Bhagavad Gita. We analyse the distinct and overlapping
topics amongst the texts and visualise the link of selected texts of the
Upanishads with Bhagavad Gita. Our results show a very high similarity between
the topics of these two texts with the mean cosine similarity of 73%. We find
that out of the fourteen topics extracted from the Bhagavad Gita, nine of them
have a cosine similarity of more than 70% with the topics of the Upanishads. We
also found that topics generated by the BERT-based models show very high
coherence as compared to that of conventional models. Our best performing model
gives a coherence score of 73% on the Bhagavad Gita and 69% on The Upanishads.
The visualization of the low dimensional embeddings of these texts shows very
clear overlapping among their topics adding another level of validation to our
results.
- Abstract(参考訳): ヒンドゥー教の宗教的・哲学的テクストの特徴は、それらが単一のソースではなくテキストのライブラリから来ていることである。
ウパニシャドは、ヒンドゥー教哲学の基礎を形成する世界最古の哲学文献の1つとして知られている。
Bhagavad Gitaはヒンドゥー哲学の中核的なテキストであり、カルマの哲学に焦点をあてたウパニシャドの重要な哲学をまとめたテキストとして知られている。
これらのテキストは、多くの言語に翻訳され、目立ったテーマやトピックに関する研究があるが、深層学習による言語モデルを用いたトピックモデリングについては、あまり研究されていない。
本稿では, BERT などの先進言語を用いて, Upanishad や Bhagavad Gita のキーテキストのトピックモデリングを行う。
我々は、テキスト間の違いと重複するトピックを分析し、Upanishads と Bhagavad Gita とのリンクを可視化する。
その結果,2つのテキストのトピック間の類似度は非常に高く,平均コサイン類似度は73%であった。
Bhagavad Gitaから抽出された14のトピックのうち、9つのトピックは、Upanishadsのトピックと70%以上のコサイン類似性を持っている。
また,BERTモデルで生成したトピックは,従来のモデルと比較して非常にコヒーレンスが高いことがわかった。
私たちの最高のパフォーマンスモデルは、bhagavad gitaで73%、upanishadsで69%のコヒーレンススコアを与えます。
これらのテキストの低次元埋め込みの可視化は、これらのトピック間で非常に明確な重なり合いを示し、その結果に別のレベルの検証を加えた。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Exploring Bengali Religious Dialect Biases in Large Language Models with Evaluation Perspectives [5.648318448953635]
大規模言語モデル(LLM)はステレオタイプとバイアスを含む出力を生成することができる。
我々はベンガル語における宗教的な視点から偏見を探求し、特にヒンドゥー語とムスリム・マジョリティの2つの主要な宗教方言に焦点を当てている。
論文 参考訳(メタデータ) (2024-07-25T20:19:29Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Mukhyansh: A Headline Generation Dataset for Indic Languages [4.583536403673757]
Mukhyanshは、インド語の見出し生成に適した、広範囲にわたる多言語データセットである。
ムハーンシュ語は3億3900万以上の記事の見出しから成り、8つの著名なインドの言語にまたがっている。
Mukhyanshは、他のすべてのモデルより優れており、平均ROUGE-Lスコアは8言語すべてで31.43である。
論文 参考訳(メタデータ) (2023-11-29T15:49:24Z) - An evaluation of Google Translate for Sanskrit to English translation
via sentiment and semantic analysis [0.31317409221921144]
2022年、サンスクリット語はGoogle翻訳エンジンに追加された。
本研究では,Bhagavad Gitaを用いて,サンスクリット語のGoogle翻訳を評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T04:24:55Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - Semantic and sentiment analysis of selected Bhagavad Gita translations
using BERT-based language framework [0.4125187280299248]
バガヴァド・ギーガ(Bhagavad Gita)は、サンスクリットで書かれた古代ヒンドゥー教の哲学書で、マハーバーラタ戦争の前にクリシュナ卿とアルジュナの会話を描いている。
本稿では,Bhagavad Gitaから選択された翻訳文(主にサンスクリット語から英語)を,意味分析と感情分析を用いて比較する。
論文 参考訳(メタデータ) (2022-01-09T23:59:11Z) - Anubhuti -- An annotated dataset for emotional analysis of Bengali short
stories [2.3424047967193826]
アヌブティはベンガルの短編小説の著者が表現した感情を分析するための最初の、そして最大のテキストコーパスである。
本稿では,データ収集手法,手作業によるアノテーション処理,そして結果として生じるハイアノテータ間の合意について説明する。
我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットの性能を検証した。
論文 参考訳(メタデータ) (2020-10-06T22:33:58Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z) - Generating Major Types of Chinese Classical Poetry in a Uniformed
Framework [88.57587722069239]
GPT-2に基づく漢詩の主要なタイプを生成するフレームワークを提案する。
予備的な結果は、この強化されたモデルが、形も内容も質の高い大型漢詩を生成できることを示している。
論文 参考訳(メタデータ) (2020-03-13T14:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。