論文の概要: Naamah: A Large Scale Synthetic Sanskrit NER Corpus via DBpedia Seeding and LLM Generation
- arxiv url: http://arxiv.org/abs/2604.26456v1
- Date: Wed, 29 Apr 2026 09:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.325584
- Title: Naamah: A Large Scale Synthetic Sanskrit NER Corpus via DBpedia Seeding and LLM Generation
- Title(参考訳): Naamah:DBpediaによる大規模合成サンスクリットNERコーパスとLCM生成
- Authors: Akhil Rajeev P, Annarao Kulkarni,
- Abstract要約: 102,942文からなる高品質な銀標準サンスクリットNERデータセットであるNaamahを紹介する。
本稿では,DBpediaからのエンティティ抽出と24Bパラメータハイブリッド推論モデルの生成機能を組み合わせた手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digitisation of classical Sanskrit literature is impeded by a scarcity of annotated resources, particularly for Named Entity Recognition. While recent methodologies utilise generic Large Language Models (LLMs) for data augmentation, these approaches remain prone to error and often lack the reasoning depth required for classical grammar. In this work, we introduce Naamah, a high quality silver standard Sanskrit NER dataset comprising 102,942 sentences. We propose a methodology that combines entity extraction from DBpedia with the generative capabilities of a 24B parameter hybrid reasoning model to create grammatically natural and synthetically diverse training data. We utilize this dataset to benchmark two transformer architectures: the massive multilingual XLM RoBERTa and the parameter efficient IndicBERTv2.
- Abstract(参考訳): 古典サンスクリット文学のデジタル化は、注釈付きリソースの不足、特に名前付きエンティティ認識の不足によって妨げられている。
近年の手法では、データ拡張に汎用言語モデル(LLM)が用いられているが、これらの手法は誤りを生じやすく、古典文法に必要な推論深度を欠いていることが多い。
本研究では,102,942文からなる高品質銀標準サンスクリットNERデータセットであるNaamahを紹介する。
本稿では,DBpediaからのエンティティ抽出と24Bパラメータハイブリッド推論モデルの生成機能を組み合わせて,文法的に自然かつ合成的に多様な学習データを生成する手法を提案する。
我々はこのデータセットを用いて、大規模多言語XLM RoBERTaとパラメータ効率の良いIndicBERTv2の2つのトランスフォーマーアーキテクチャをベンチマークする。
関連論文リスト
- Beyond Subtokens: A Rich Character Embedding for Low-resource and Morphologically Complex Languages [5.338837380875301]
word2vec、BERT、GPTといったトークン化とサブトークン化に基づくモデルは、自然言語処理における最先端のモデルである。
本稿では,文字列から直接単語ベクトルを計算し,意味情報と構文情報を統合することを提案する。
BERTのようなコンテキストベースの大規模言語モデルと、低リソースおよび形態学的にリッチな言語のための word2vec のような小さなモデルの両方のパフォーマンスを改善する可能性がある。
論文 参考訳(メタデータ) (2026-02-24T21:16:08Z) - Improving Indigenous Language Machine Translation with Synthetic Data and Language-Specific Preprocessing [5.781452568978427]
我々は,高容量多言語翻訳モデルを用いて合成文対を生成することで,アメリカ大陸の言語に対する並列データセットを拡張した。
グアラニ・スペイン語とケチュア・スペイン語の翻訳実験は、合成データ拡張による一貫したchrF++の改善を示している。
Aymaraの診断実験は、高度に凝集的な言語に対する一般的な前処理の限界を強調している。
論文 参考訳(メタデータ) (2026-01-06T16:06:42Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks [26.848664285007022]
ByT5-Sanskritは、形態的にリッチなサンスクリット言語を含むNLPアプリケーション向けに設計された。
外部の言語資源によってカバーされていないデータへのデプロイが容易で、より堅牢である。
提案手法は,他の形態学的にリッチな言語に対する補題化と依存関係解析のための新たなベストスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-09-20T22:02:26Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Entity-Assisted Language Models for Identifying Check-worthy Sentences [23.792877053142636]
テキスト分類とランキングのための統一的なフレームワークを提案する。
本フレームワークは,文の意味的分析と,文内の識別されたエンティティから得られる追加のエンティティ埋め込みを組み合わせる。
CLEFの2019年と2020年のCheckThat! Labsから公開されている2つのデータセットを使用して、我々のフレームワークの有効性を広く評価する。
論文 参考訳(メタデータ) (2022-11-19T12:03:30Z) - The Whole Truth and Nothing But the Truth: Faithful and Controllable
Dialogue Response Generation with Dataflow Transduction and Constrained
Decoding [65.34601470417967]
本稿では,ニューラルネットワークモデリングとルールベース生成の強みを組み合わせた対話応答生成のためのハイブリッドアーキテクチャについて述べる。
本実験により, 本システムは, 流布性, 妥当性, 真理性の評価において, ルールベースおよび学習的アプローチの両方に優れることがわかった。
論文 参考訳(メタデータ) (2022-09-16T09:00:49Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。