論文の概要: IndicEval: A Bilingual Indian Educational Evaluation Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.16467v1
- Date: Wed, 18 Feb 2026 13:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.604197
- Title: IndicEval: A Bilingual Indian Educational Evaluation Framework for Large Language Models
- Title(参考訳): IndicEval: 大規模言語モデルのためのバイリンガルインド教育評価フレームワーク
- Authors: Saurabh Bharti, Gaurav Azad, Abhinaw Jagtap, Nachiket Tapas,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の性能を評価するため,スケーラブルなベンチマークプラットフォームであるIndicEvalを紹介する。
IndicEvalは、実検定基準で評価し、推論、ドメイン知識、バイリンガル適応性の現実的な測定を可能にする。
Gemini 2.0 Flash、GPT-4、Claude、LLaMA 3-70Bで実施された実験では、3つの大きな発見が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) necessitates evaluation frameworks that reflect real-world academic rigor and multilingual complexity. This paper introduces IndicEval, a scalable benchmarking platform designed to assess LLM performance using authentic high-stakes examination questions from UPSC, JEE, and NEET across STEM and humanities domains in both English and Hindi. Unlike synthetic benchmarks, IndicEval grounds evaluation in real examination standards, enabling realistic measurement of reasoning, domain knowledge, and bilingual adaptability. The framework automates assessment using Zero-Shot, Few-Shot, and Chain-of-Thought (CoT) prompting strategies and supports modular integration of new models and languages. Experiments conducted on Gemini 2.0 Flash, GPT-4, Claude, and LLaMA 3-70B reveal three major findings. First, CoT prompting consistently improves reasoning accuracy, with substantial gains across subjects and languages. Second, significant cross-model performance disparities persist, particularly in high-complexity examinations. Third, multilingual degradation remains a critical challenge, with marked accuracy drops in Hindi compared to English, especially under Zero-Shot conditions. These results highlight persistent gaps in bilingual reasoning and domain transfer. Overall, IndicEval provides a practice-oriented, extensible foundation for rigorous, equitable evaluation of LLMs in multilingual educational settings and offers actionable insights for improving reasoning robustness and language adaptability.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、実世界の学術的厳密さと多言語的複雑さを反映した評価フレームワークを必要とする。
IndicEvalは、英語とヒンディー語の両方のSTEMおよび人文科学領域にわたるUPSC、JEE、NEETからの真に高い評価問題を用いて、LCMの性能を評価するために設計されたスケーラブルなベンチマークプラットフォームである。
合成ベンチマークとは異なり、IndicEvalは実検定基準で評価し、推論、ドメイン知識、バイリンガル適応性の現実的な測定を可能にする。
このフレームワークは、Zero-Shot、Few-Shot、Chain-of-Thought (CoT)を使用して評価を自動化する。
Gemini 2.0 Flash、GPT-4、Claude、LLaMA 3-70Bで実施された実験では、3つの大きな発見が示された。
第一に、CoTのプロンプトは推論の精度を一貫して改善し、主題や言語間で大幅に向上する。
第2に、特に複雑度試験において、重要なクロスモデル性能格差が持続する。
第三に、多言語劣化は、特にゼロショット条件下では、英語と比較してヒンディー語では顕著な精度低下があるため、依然として重要な課題である。
これらの結果は、バイリンガル推論とドメイン転送における永続的なギャップを浮き彫りにする。
全体として、IndicEvalは多言語教育環境でのLLMの厳密で公平な評価のための実践指向で拡張可能な基盤を提供し、推論の堅牢性と言語適応性を改善するための実用的な洞察を提供する。
関連論文リスト
- A Comprehensive Evaluation of Multilingual Chain-of-Thought Reasoning: Performance, Consistency, and Faithfulness Across Languages [48.68444770923683]
マルチリンガル・チェーン・オブ・ソート(CoT)推論の最初の包括的研究について述べる。
LRMがターゲット言語ですぐに考えることができる場合、言語コンプライアンス、解答精度、解答一貫性を計測する。
思考の痕跡の質と有効性は、素早い言語によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2025-10-10T17:06:50Z) - Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7304930030649]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。
M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-08T17:55:02Z) - CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [23.1730341293796]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - Multilingual Self-Taught Faithfulness Evaluators [11.200203292660758]
合成多言語要約データからのみ学習するフレームワークである。
我々のフレームワークは、最先端の英語評価器や機械翻訳に基づくアプローチなど、既存のベースラインよりも改善されている。
論文 参考訳(メタデータ) (2025-07-28T12:01:59Z) - Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [39.03934159726098]
M2Aは,マルチスケール多言語アライメントと,機械翻訳された質問に対する言語一貫性報酬を組み合わせた新しい手法である。
地理に基づく多言語事実推論ベンチマークであるGeoFact-Xと5言語での推論トレースを紹介する。
以上の結果から,M2Aは数学的および事実的推論タスクにおいて,多言語推論の忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。