論文の概要: Pragya: An AI-Based Semantic Recommendation System for Sanskrit Subhasitas
- arxiv url: http://arxiv.org/abs/2601.06607v1
- Date: Sat, 10 Jan 2026 16:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.899089
- Title: Pragya: An AI-Based Semantic Recommendation System for Sanskrit Subhasitas
- Title(参考訳): Pragya: Sanskrit SubhasitasのためのAIベースのセマンティックレコメンデーションシステム
- Authors: Tanisha Raorane, Prasenjit Kole,
- Abstract要約: 本稿では,サブハシタスのセマンティックレコメンデーションのための検索拡張型生成フレームワークであるPragyaを紹介する。
我々は、モチベーション、友情、思いやりといったテーマタグを付した200節のデータセットをキュレートする。
文埋め込み(IndicBERT)を用いて、システムはユーザクエリに関連するトップkの単語を検索する。
得られた結果は生成モデルに渡され、翻訳、翻訳、文脈説明が生成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sanskrit Subhasitas encapsulate centuries of cultural and philosophical wisdom, yet remain underutilized in the digital age due to linguistic and contextual barriers. In this work, we present Pragya, a retrieval-augmented generation (RAG) framework for semantic recommendation of Subhasitas. We curate a dataset of 200 verses annotated with thematic tags such as motivation, friendship, and compassion. Using sentence embeddings (IndicBERT), the system retrieves top-k verses relevant to user queries. The retrieved results are then passed to a generative model (Mistral LLM) to produce transliterations, translations, and contextual explanations. Experimental evaluation demonstrates that semantic retrieval significantly outperforms keyword matching in precision and relevance, while user studies highlight improved accessibility through generated summaries. To our knowledge, this is the first attempt at integrating retrieval and generation for Sanskrit Subhasitas, bridging cultural heritage with modern applied AI.
- Abstract(参考訳): サンスクリット・サブハシタスは、何世紀にもわたる文化的・哲学的な知恵をカプセル化しているが、言語的・文脈的な障壁のため、デジタル時代には未利用のままである。
本稿では,サブハシタスのセマンティックレコメンデーションのための検索拡張世代(RAG)フレームワークであるPragyaを紹介する。
我々は、モチベーション、友情、思いやりといったテーマタグを付した200節のデータセットをキュレートする。
文埋め込み(IndicBERT)を用いて、システムはユーザクエリに関連するトップkの単語を検索する。
得られた結果は生成モデル(Mistral LLM)に渡され、翻訳、翻訳、文脈説明が生成される。
実験により,セマンティック検索がキーワードマッチングの精度と妥当性を著しく上回っているのに対し,ユーザスタディでは,生成した要約によるアクセシビリティの向上が強調されている。
われわれの知る限り、これはサンスクリット・サブハシタスの検索と生成を統合する最初の試みであり、現代の応用AIと文化遺産を橋渡ししている。
関連論文リスト
- On the Merits of LLM-Based Corpus Enrichment [11.398498369228571]
我々は、genAIを使って文書コーパスを充実させるという、新しい視点を主張する。
エンリッチメントは、既存のドキュメントを変更したり、新しいドキュメントを生成することに基づいている。
論文 参考訳(メタデータ) (2025-06-06T12:02:14Z) - Anveshana: A New Benchmark Dataset for Cross-Lingual Information Retrieval On English Queries and Sanskrit Documents [7.967320126793103]
この研究はサンスクリット語のニュアンスに関する最先端のモデルである。
これはサンスクリット文書の要約手法を適用してQA処理を改善する。
3400の英語とサンスクリットの問合せ文書のデータセットが研究の基盤となっている。
論文 参考訳(メタデータ) (2025-05-26T04:23:21Z) - LEVOS: Leveraging Vocabulary Overlap with Sanskrit to Generate Technical Lexicons in Indian Languages [39.08623113730563]
技術的用語の言語情報翻訳のためのサンスクリットに基づくセグメントの新規な利用法を提案する。
提案手法では,意味のあるサブワード単位の識別に文字レベルセグメンテーションを用いる。
我々はサンスクリットから派生したセグメントを用いた技術用語翻訳のための2つの実験的な設定における一貫した改善を観察する。
論文 参考訳(メタデータ) (2024-07-08T18:50:13Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - HICL: Hashtag-Driven In-Context Learning for Social Media Natural
Language Understanding [15.743523533234224]
本稿では,ソーシャルメディア上での自然言語理解のための新しいハッシュタグ駆動型インコンテキスト学習フレームワークを提案する。
我々の目標は、モデル#Encoderがトピック関連セマンティック情報を組み込むことで、トピック関連投稿を検索できるようにすることである。
In-context NLUベンチマークを作成するために4500万のつぶやきを収集し、7つの下流タスクの実験結果から、HICLは過去の最先端の成果を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-08-19T11:31:45Z) - Transition-based Abstract Meaning Representation Parsing with Contextual
Embeddings [0.0]
本研究では,意味解析のタスクにおいて,言語モデルと記号意味論の定式化という,言語の意味への最も成功したルートを2つ組み合わせる手法について検討する。
本稿では,事前学習した文脈認識単語の埋め込み(BERTやRoBERTaなど)を解析問題に組み込むことの有用性について検討する。
論文 参考訳(メタデータ) (2022-06-13T15:05:24Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。