論文の概要: From Phonemes to Meaning: Evaluating Large Language Models on Tamil
- arxiv url: http://arxiv.org/abs/2511.12387v1
- Date: Sat, 15 Nov 2025 23:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.010494
- Title: From Phonemes to Meaning: Evaluating Large Language Models on Tamil
- Title(参考訳): 国語から意味へ:タミル語における大規模言語モデルの評価
- Authors: Jeyarajalingam Varsha, Menan Velayuthan, Sumirtha Karunakaran, Rasan Nivethiga, Kengatharaiyer Sarveswaran,
- Abstract要約: ILAKANAMは、スリランカの学校レベルのタミル語検定論文から820の質問を手作業で収集した最初のタミル語別言語評価ベンチマークである。
我々の結果は、Gemini 2.5が全体的なパフォーマンスを最高に達成し、オープンソースモデルは遅れていることを示している。
モデル全体の性能と言語カテゴリーを識別する能力の間に強い相関関係は見られず、実際の理解よりも露出によってパフォーマンスが引き起こされる可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 1.0493506909428438
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have shown strong generalization across tasks in high-resource languages; however, their linguistic competence in low-resource and morphologically rich languages such as Tamil remains largely unexplored. Existing multilingual benchmarks often rely on translated English datasets, failing to capture the linguistic and cultural nuances of the target language. To address this gap, we introduce ILAKKANAM, the first Tamil-specific linguistic evaluation benchmark manually curated using 820 questions from Sri Lankan school-level Tamil subject examination papers. Each question is annotated by trained linguists under five linguistic categories and a factual knowledge category, spanning Grades 1--13 to ensure broad linguistic coverage. We evaluate both closed-source and open-source LLMs using a standardized evaluation framework. Our results show that Gemini 2.5 achieves the highest overall performance, while open-source models lag behind, highlighting the gap in linguistic grounding. Category- and grade-wise analyses reveal that all models perform well on lower-grade questions but show a clear decline as linguistic complexity increases. Further, no strong correlation is observed between a model's overall performance and its ability to identify linguistic categories, suggesting that performance may be driven by exposure rather than genuine understanding.
- Abstract(参考訳): LLM(Large Language Models)は、高リソース言語におけるタスクにまたがる強力な一般化を示しているが、タミル語のような低リソース言語や形態学的に豊かな言語におけるそれらの言語能力は、まだ明らかにされていない。
既存の多言語ベンチマークはしばしば翻訳された英語のデータセットに依存しており、対象言語の言語的・文化的ニュアンスを捉えていない。
このギャップに対処するために、スリランカの学校レベルのタミル語科検定論文から820の質問を手作業で収集した最初のタミル語別言語評価ベンチマークであるILAKANAMを紹介する。
各質問は5つの言語カテゴリーと事実知識カテゴリの訓練された言語学者によって注釈付けされ、幅広い言語的カバレッジを確保するために1-13にまたがる。
我々は、標準化された評価フレームワークを用いて、クローズドソースとオープンソースの両方のLCMを評価した。
以上の結果から,Gemini 2.5は,言語基盤のギャップを浮き彫りにして,オープンソースモデルが遅れているのに対して,全体的なパフォーマンスが最も高いことが示唆された。
カテゴリー別および段階別分析では、全てのモデルが下級の質問に対して良好に機能するが、言語的複雑さが増加するにつれて明らかな減少を示す。
さらに、モデル全体の性能と言語カテゴリーを識別する能力との間には強い相関は見られず、実際の理解よりも露出によってパフォーマンスが引き起こされる可能性があることを示唆している。
関連論文リスト
- ChiKhaPo: A Large-Scale Multilingual Benchmark for Evaluating Lexical Comprehension and Generation in Large Language Models [4.615257892219717]
生成モデルの語彙的理解と生成能力を評価するために, 様々な難易度を持つ8つのサブタスクからなるChiKhaPoを紹介した。
ChiKhaPoは既存のレキシコン、モノリンガルデータ、bitextをベースとして、2つのサブタスクで2700以上の言語をカバーする。
論文 参考訳(メタデータ) (2025-10-19T16:55:20Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [85.78821098963607]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - How does a Multilingual LM Handle Multiple Languages? [0.0]
本研究では,多言語理解,意味表現,言語間知識伝達の能力について批判的に検討する。
コサイン類似性を用いた一貫性のための多言語単語埋め込みの分析により意味的類似性を評価する。
BLOOM-1.7B と Qwen2 を Named Entity Recognition と文類似性タスクを通して調べ、それらの言語構造を理解する。
論文 参考訳(メタデータ) (2025-02-06T18:08:14Z) - MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
我々は,インデクス言語における大規模言語モデルを評価するための総合評価ベンチマークMILUを紹介する。
インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
オープンな多言語モデルは言語固有の微調整モデルよりも優れており、ランダムなベースラインよりもわずかに優れている。
論文 参考訳(メタデータ) (2024-11-04T19:17:17Z) - Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings [12.507989493130175]
大規模言語モデル (LLM) は自然言語処理 (NLP) に大きな関心を寄せている。
近年の研究では、低リソース言語におけるLLMの限界が強調されている。
英語からバングラ語、ヒンディー語、ウルドゥー語に翻訳することで、感情と憎悪の音声タスクのデータセットを提示する。
論文 参考訳(メタデータ) (2024-08-05T05:09:23Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。