論文の概要: Rezwan: Leveraging Large Language Models for Comprehensive Hadith Text Processing: A 1.2M Corpus Development
- arxiv url: http://arxiv.org/abs/2510.03781v1
- Date: Sat, 04 Oct 2025 11:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.249614
- Title: Rezwan: Leveraging Large Language Models for Comprehensive Hadith Text Processing: A 1.2M Corpus Development
- Title(参考訳): Rezwan: 包括的習慣テキスト処理のための大規模言語モデルを活用する - 1.2Mコーパス開発
- Authors: Majid Asgari-Bidhendi, Muhammad Amin Ghaseminia, Alireza Shahbazi, Sayyed Ali Hossayni, Najmeh Torabian, Behrouz Minaei-Bidgoli,
- Abstract要約: Rezwanは大規模なAI支援型Hadithコーパスで、1.2M以上のナレーションで構成され、完全に自動化されたパイプラインを通じて抽出、構造化されている。
各ナレーションは、インテリジェントなダイアクリゼーション、抽象的な要約、テーマタグ付け、テキスト間セマンティック分析など、12言語への機械翻訳によって強化される。
その結果、連鎖文分離や要約といった構造的タスクにおいて、ほぼ人間に近い精度を示すとともに、ダイアクリタイズや意味的類似性検出における継続的な課題を強調した。
- 参考スコア(独自算出の注目度): 2.9958599508973403
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents the development of Rezwan, a large-scale AI-assisted Hadith corpus comprising over 1.2M narrations, extracted and structured through a fully automated pipeline. Building on digital repositories such as Maktabat Ahl al-Bayt, the pipeline employs Large Language Models (LLMs) for segmentation, chain--text separation, validation, and multi-layer enrichment. Each narration is enhanced with machine translation into twelve languages, intelligent diacritization, abstractive summarization, thematic tagging, and cross-text semantic analysis. This multi-step process transforms raw text into a richly annotated research-ready infrastructure for digital humanities and Islamic studies. A rigorous evaluation was conducted on 1,213 randomly sampled narrations, assessed by six domain experts. Results show near-human accuracy in structured tasks such as chain--text separation (9.33/10) and summarization (9.33/10), while highlighting ongoing challenges in diacritization and semantic similarity detection. Comparative analysis against the manually curated Noor Corpus demonstrates the superiority of Najm in both scale and quality, with a mean overall score of 8.46/10 versus 3.66/10. Furthermore, cost analysis confirms the economic feasibility of the AI approach: tasks requiring over 229,000 hours of expert labor were completed within months at a fraction of the cost. The work introduces a new paradigm in religious text processing by showing how AI can augment human expertise, enabling large-scale, multilingual, and semantically enriched access to Islamic heritage.
- Abstract(参考訳): 本稿では,大規模なAI支援型HadithコーパスであるRezwanの開発について述べる。
Maktabat Ahl al-Baytのようなデジタルリポジトリ上に構築されており、セグメンテーション、チェーン-テキスト分離、バリデーション、多層エンリッチメントにLarge Language Models(LLM)を使用している。
各ナレーションは、インテリジェントなダイアクリゼーション、抽象的な要約、テーマタグ付け、テキスト間セマンティック分析など、12言語への機械翻訳によって強化される。
この多段階のプロセスは、原文をデジタル人文科学とイスラム研究のためのリッチな注釈付き研究インフラに変換する。
ドメインの専門家6名による1,213個の無作為なサンプルナレーションについて厳密な評価を行った。
その結果,チェーンテキスト分離 (9.33/10) や要約 (9.33/10) といった構造的タスクにおいて,ほぼ人間に近い精度が得られた。
手作業によるNoor Corpusの比較分析では、Najmのスケールと品質の両方において、平均スコアは8.46/10、平均スコアは3.66/10である。
さらに、コスト分析は、AIアプローチの経済的実現可能性を確認している。229,000時間以上の専門労働者を必要とするタスクは、コストのごく一部で数ヶ月以内に完了した。
この研究は、宗教的なテキスト処理における新しいパラダイムを導入し、AIが人間の専門性をいかに強化し、大規模で多言語で、意味的に豊かなイスラム遺産へのアクセスを可能にするかを示した。
関連論文リスト
- mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - PromotionGo at SemEval-2025 Task 11: A Feature-Centric Framework for Cross-Lingual Multi-Emotion Detection in Short Texts [1.210852962855694]
本稿では,SemEval 2025 Task 11: Bridging the Gap in Text-based Emotion Detectionについて述べる。
本稿では,文書表現と学習アルゴリズムを動的に適用し,言語固有の性能を最適化する機能中心フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-11T11:21:18Z) - A Large and Balanced Corpus for Fine-grained Arabic Readability Assessment [10.853984915007961]
本稿では,アラビア語可読性評価のための大規模かつきめ細かいデータセットであるBa balanced Arabic Readability Evaluation Corpus (BAREC)を紹介する。
BARECは1百万語にまたがる69,441の文からなる。
コーパスはジャンルの多様性、トピックのカバレッジ、ターゲットのオーディエンスとのバランスを保ち、アラビア文字の複雑さを評価するための包括的なリソースを提供する。
論文 参考訳(メタデータ) (2025-02-19T08:16:11Z) - SCALE: Towards Collaborative Content Analysis in Social Science with Large Language Model Agents and Human Intervention [50.07342730395946]
我々は、効果的に機能する新しいマルチエージェントフレームワークを導入する。
Imulates $underlinetextbfC$ontent $underlinetextbfA$nalysis via。
underlinetextbfL$arge language model (LLM) agunderlinetextbfE$nts。
テキストコーディング、協調的な議論、動的コードブックの進化など、コンテンツ分析の重要なフェーズを模倣します。
論文 参考訳(メタデータ) (2025-02-16T00:19:07Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - KINLP at SemEval-2023 Task 12: Kinyarwanda Tweet Sentiment Analysis [1.2183405753834562]
本稿では,SemEval-2023 Task 12: Sentiment Analysis for African Languageについて述べる。
システムはKinyarwanda言語に焦点を当て、言語固有のモデルを使用する。
論文 参考訳(メタデータ) (2023-04-25T04:30:03Z) - LANS: Large-scale Arabic News Summarization Corpus [20.835296945483275]
我々は、アラビア文字要約タスクのための大規模かつ多様なデータセットであるLANSを構築している。
LANSは、1999年から2019年の間に新聞のウェブサイトから抽出した840万記事と要約を提供している。
論文 参考訳(メタデータ) (2022-10-24T20:54:01Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。