論文の概要: BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains
- arxiv url: http://arxiv.org/abs/2510.25409v1
- Date: Wed, 29 Oct 2025 11:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.478927
- Title: BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains
- Title(参考訳): BhashaBench V1: インデックスドメインのクアドラントに対する包括的なベンチマーク
- Authors: Vijay Devane, Mohd Nauman, Bhargav Patel, Aniket Mahendra Wakchoure, Yogeshkumar Sant, Shyam Pawar, Viraj Thakur, Ananya Godse, Sunil Patra, Neha Maurya, Suraj Racha, Nitish Kamal Singh, Ajay Nagpal, Piyush Sawarkar, Kundeshwar Vijayrao Pundalik, Rohit Saluja, Ganesh Ramakrishnan,
- Abstract要約: BhashaBench V1は74,166個の厳密にキュレートされた質問応答対を含み、英語では52,494個、ヒンディー語では21,672個である。
農業、法律、財政、アユルヴェーダの4つの主要領域にまたがる。
29以上のLLMの評価では、ドメインと言語固有のパフォーマンスギャップが顕著である。
- 参考スコア(独自算出の注目度): 10.342942323713118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models(LLMs) has intensified the need for domain and culture specific evaluation. Existing benchmarks are largely Anglocentric and domain-agnostic, limiting their applicability to India-centric contexts. To address this gap, we introduce BhashaBench V1, the first domain-specific, multi-task, bilingual benchmark focusing on critical Indic knowledge systems. BhashaBench V1 contains 74,166 meticulously curated question-answer pairs, with 52,494 in English and 21,672 in Hindi, sourced from authentic government and domain-specific exams. It spans four major domains: Agriculture, Legal, Finance, and Ayurveda, comprising 90+ subdomains and covering 500+ topics, enabling fine-grained evaluation. Evaluation of 29+ LLMs reveals significant domain and language specific performance gaps, with especially large disparities in low-resource domains. For instance, GPT-4o achieves 76.49% overall accuracy in Legal but only 59.74% in Ayurveda. Models consistently perform better on English content compared to Hindi across all domains. Subdomain-level analysis shows that areas such as Cyber Law, International Finance perform relatively well, while Panchakarma, Seed Science, and Human Rights remain notably weak. BhashaBench V1 provides a comprehensive dataset for evaluating large language models across India's diverse knowledge domains. It enables assessment of models' ability to integrate domain-specific knowledge with bilingual understanding. All code, benchmarks, and resources are publicly available to support open research.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、ドメインや文化固有の評価の必要性が高まっている。
既存のベンチマークは、大半がアングロ中心でドメインに依存しないものであり、インド中心のコンテキストに適用性を制限する。
このギャップに対処するため、我々はBhashaBench V1を紹介した。
BhashaBench V1には74,166の厳密にキュレートされた質問応答対が含まれており、英語では52,494、ヒンディー語では21,672の質問応答対がある。
農業、法律、ファイナンス、アユルヴェダの4つの主要領域にまたがっており、90以上のサブドメインと500以上のトピックをカバーし、きめ細かい評価を可能にしている。
29以上のLLMの評価は、低リソース領域において特に大きな差異がある、重要なドメインと言語固有のパフォーマンスギャップを明らかにしている。
例えば、GPT-4oは法定では76.49%の精度を達成しているが、Ayurvedaでは59.74%しか達成していない。
モデルは、すべてのドメインでヒンディー語と比較して、一貫して英語のコンテンツでパフォーマンスが向上する。
サブドメインレベルの分析では、サイバー法、国際ファイナンスなどの分野は比較的よく機能し、パンチャカルマ、シードサイエンス、人権は顕著に弱いままである。
BhashaBench V1は、インドの多様な知識ドメインにわたる大規模な言語モデルを評価するための包括的なデータセットを提供する。
ドメイン固有の知識とバイリンガル理解を統合するモデルの能力を評価することができる。
すべてのコード、ベンチマーク、リソースは、オープンリサーチをサポートするために公開されています。
関連論文リスト
- CorIL: Towards Enriching Indian Language to Indian Language Parallel Corpora and Machine Translation Systems [18.521673953685575]
インドの言語風景は世界でも最も多様であり、120以上の主要言語と1,600以上の追加言語から構成されている。
最近の多言語ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、インドの言語に対する高品質な並列コーパスは依然として乏しい。
本稿では,11言語を対象とした大規模で高品質な並列コーパスを提案する。
論文 参考訳(メタデータ) (2025-09-24T09:48:26Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
我々は,インデクス言語における大規模言語モデルを評価するための総合評価ベンチマークMILUを紹介する。
インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
オープンな多言語モデルは言語固有の微調整モデルよりも優れており、ランダムなベースラインよりもわずかに優れている。
論文 参考訳(メタデータ) (2024-11-04T19:17:17Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating
Holistic Domain Knowledge of Large Language Model--A Preliminary Release [13.603414598813938]
DomMaは、ドメイン知識の理解に基づいてLarge Language Models(LLM)をテストすることを目標としている。
広範なドメインカバレッジ、大規模なデータボリューム、中国の112の第一級対象分類に基づいた継続的に更新されたデータセットを備えている。
論文 参考訳(メタデータ) (2023-04-23T15:11:49Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Open Domain Generalization with Domain-Augmented Meta-Learning [83.59952915761141]
オープンドメイン一般化(OpenDG)の新しい実践的問題について研究する。
本稿では,オープンドメイン一般化表現を学ぶためのメタ学習フレームワークを提案する。
種々のマルチドメインデータセットの実験結果から、提案したドメイン拡張メタラーニング(DAML)が、未確認ドメイン認識の先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-08T09:12:24Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。