Fugu-MT 論文翻訳(概要): Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis

論文の概要: Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis

arxiv url: http://arxiv.org/abs/2507.23248v1
Date: Thu, 31 Jul 2025 05:16:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 17:19:09.110029
Title: Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis
Title（参考訳）: ベンガル語におけるLLMの多言語能力の評価:ベンチマーク作成と性能解析
Authors: Shimanto Bhowmik, Tawsif Tashwar Dipto, Md Sazzad Islam, Sheryl Hsu, Tahsin Reasat,
Abstract要約: ベンガル語はNLP研究においてあまり表現されていない言語である。ベンガルのNLP性能を阻害する課題を系統的に検討する。ベンガル語では英語と比較して一貫した性能差がみられた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bengali is an underrepresented language in NLP research. However, it remains a challenge due to its unique linguistic structure and computational constraints. In this work, we systematically investigate the challenges that hinder Bengali NLP performance by focusing on the absence of standardized evaluation benchmarks. We then evaluated 10 recent open source Large Language Models (LLMs) in 8 of the translated datasets and performed a comprehensive error analysis to pinpoint their primary failure modes. Our findings reveal consistent performance gaps for Bengali compared to English, particularly for smaller models and specific model families like Mistral. We also identified promising robustness in certain architectures, such as DeepSeek, that maintain more stable performance across languages. Our analysis reveals an inverse relationship between tokenization efficiency and LLM accuracy where models tend to perform worse when inputs are excessively tokenized, whereas more efficient \& concise tokenization results in improved performance. These findings highlight critical areas where current models fall short and underscore the need for improved dataset quality and evaluation methodologies tailored to multilingual contexts. This work will catalyze further research on NLP for underrepresented languages, helping to democratize access to advanced language technologies worldwide. The code and dataset used in this research is publicly available at https://github.com/BengaliAI/bn-llm-benchmark.
Abstract（参考訳）: ベンガル語はNLP研究においてあまり表現されていない言語である。しかし、ユニークな言語構造と計算上の制約のため、これは依然として課題である。本研究では,標準評価ベンチマークの欠如に着目し,ベンガルNLP性能を阻害する課題を系統的に検討する。次に、翻訳された8つのデータセットのうち、最近の10のオープンソースLarge Language Models (LLMs)を評価し、その主要な障害モードをピンポイントする包括的なエラー解析を行った。特にミストラルのような小型モデルや特定のモデルファミリーでは,ベンガルは英語と比較して一貫した性能差がみられた。また、言語間でより安定したパフォーマンスを維持するDeepSeekのような、ある種のアーキテクチャにおける有望な堅牢性も確認しました。分析の結果,入力が過剰にトークン化されるとモデルの性能が低下する傾向にあるのに対して,より効率的で簡潔なトークン化では性能が向上することがわかった。これらの知見は、現在のモデルが不足している重要な領域を浮き彫りにして、データセットの品質向上と多言語コンテキストに適した評価手法の必要性を浮き彫りにしている。この研究は、表現不足の言語に対するNLPに関するさらなる研究のきっかけとなり、世界中の先進言語技術へのアクセスを民主化するのに役立ちます。この研究で使用されるコードとデータセットはhttps://github.com/BengaliAI/bn-llm-benchmarkで公開されている。

関連論文リスト

BnMMLU: Measuring Massive Multitask Language Understanding in Bengali [0.0]
本稿では,ベンガル語モデルにおける言語理解能力を評価するベンチマークであるBnMMLUを紹介する。データセットは科学、人文科学、数学、一般知識を含む23の領域にまたがる。我々は、BnMMLUテストセット上で、プロプライエタリでオープンソースの大規模言語モデル(LLM)をベンチマークする。
論文参考訳（メタデータ） (2025-05-25T02:54:31Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。 LLMは異なる言語間で大きな性能差を示す。 Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文参考訳（メタデータ） (2024-10-16T11:23:03Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文参考訳（メタデータ） (2024-02-20T16:02:12Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。事実整合性評価モデルを利用して、多言語要約を改善する。
論文参考訳（メタデータ） (2022-12-20T19:52:41Z)
Efficient Entity Candidate Generation for Low-Resource Languages [13.789451365205665]
候補生成はエンティティリンクにおいて重要なモジュールである。知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
論文参考訳（メタデータ） (2022-06-30T09:49:53Z)
Evaluating the Robustness of Neural Language Models to Input Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文参考訳（メタデータ） (2021-08-27T12:31:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。