論文の概要: Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis
- arxiv url: http://arxiv.org/abs/2507.23248v1
- Date: Thu, 31 Jul 2025 05:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.110029
- Title: Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis
- Title(参考訳): ベンガル語におけるLLMの多言語能力の評価:ベンチマーク作成と性能解析
- Authors: Shimanto Bhowmik, Tawsif Tashwar Dipto, Md Sazzad Islam, Sheryl Hsu, Tahsin Reasat,
- Abstract要約: ベンガル語はNLP研究においてあまり表現されていない言語である。
ベンガルのNLP性能を阻害する課題を系統的に検討する。
ベンガル語では英語と比較して一貫した性能差がみられた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bengali is an underrepresented language in NLP research. However, it remains a challenge due to its unique linguistic structure and computational constraints. In this work, we systematically investigate the challenges that hinder Bengali NLP performance by focusing on the absence of standardized evaluation benchmarks. We then evaluated 10 recent open source Large Language Models (LLMs) in 8 of the translated datasets and performed a comprehensive error analysis to pinpoint their primary failure modes. Our findings reveal consistent performance gaps for Bengali compared to English, particularly for smaller models and specific model families like Mistral. We also identified promising robustness in certain architectures, such as DeepSeek, that maintain more stable performance across languages. Our analysis reveals an inverse relationship between tokenization efficiency and LLM accuracy where models tend to perform worse when inputs are excessively tokenized, whereas more efficient \& concise tokenization results in improved performance. These findings highlight critical areas where current models fall short and underscore the need for improved dataset quality and evaluation methodologies tailored to multilingual contexts. This work will catalyze further research on NLP for underrepresented languages, helping to democratize access to advanced language technologies worldwide. The code and dataset used in this research is publicly available at https://github.com/BengaliAI/bn-llm-benchmark.
- Abstract(参考訳): ベンガル語はNLP研究においてあまり表現されていない言語である。
しかし、ユニークな言語構造と計算上の制約のため、これは依然として課題である。
本研究では,標準評価ベンチマークの欠如に着目し,ベンガルNLP性能を阻害する課題を系統的に検討する。
次に、翻訳された8つのデータセットのうち、最近の10のオープンソースLarge Language Models (LLMs)を評価し、その主要な障害モードをピンポイントする包括的なエラー解析を行った。
特にミストラルのような小型モデルや特定のモデルファミリーでは,ベンガルは英語と比較して一貫した性能差がみられた。
また、言語間でより安定したパフォーマンスを維持するDeepSeekのような、ある種のアーキテクチャにおける有望な堅牢性も確認しました。
分析の結果,入力が過剰にトークン化されるとモデルの性能が低下する傾向にあるのに対して,より効率的で簡潔なトークン化では性能が向上することがわかった。
これらの知見は、現在のモデルが不足している重要な領域を浮き彫りにして、データセットの品質向上と多言語コンテキストに適した評価手法の必要性を浮き彫りにしている。
この研究は、表現不足の言語に対するNLPに関するさらなる研究のきっかけとなり、世界中の先進言語技術へのアクセスを民主化するのに役立ちます。
この研究で使用されるコードとデータセットはhttps://github.com/BengaliAI/bn-llm-benchmarkで公開されている。
関連論文リスト
- Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Efficient Entity Candidate Generation for Low-Resource Languages [13.789451365205665]
候補生成はエンティティリンクにおいて重要なモジュールである。
知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。
本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
論文 参考訳(メタデータ) (2022-06-30T09:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。