論文の概要: MATA (māta): Mindful Assessment of the Telugu Abilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2508.13526v1
- Date: Tue, 19 Aug 2025 05:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.80602
- Title: MATA (māta): Mindful Assessment of the Telugu Abilities of Large Language Models
- Title(参考訳): MATA(Māta):大規模言語モデルにおけるTelugu能力のマインドフルアセスメント
- Authors: Chalamalasetti Kranti, Sowmya Vajjala,
- Abstract要約: MATAは、テルグ語における大規模言語モデル(LLM)の能力を評価するための、新しい評価データセットである。
我々は,11個のオープンウェイトおよびクローズドソースLCMをデータセット上で評価し,その性能を詳細に分析した。
- 参考スコア(独自算出の注目度): 2.7624021966289605
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce MATA, a novel evaluation dataset to assess the ability of Large Language Models (LLMs) in Telugu language, comprising 729 carefully curated multiple-choice and open-ended questions that span diverse linguistic dimensions. We evaluate 11 open-weight and closed-source LLMs on our dataset and present a fine-grained analysis of their performance. Further, we empirically show how LLMs rely on superficial heuristics such as answer position and distractor patterns for multiple-choice questions. Finally, we also compare LLM-as-a-judge evaluation with human evaluation for open-ended questions and draw some conclusions on its reliability in a low-resource language. We argue that such fine-grained evaluation is essential for understanding model limitations and can inform the development of more linguistically capable LLMs, while also serving as a foundation for future research in Telugu NLP.
- Abstract(参考訳): 本稿では,テルグ語におけるLarge Language Models (LLMs) の能力を評価するための新しい評価データセットであるMATAを紹介する。
我々は,11個のオープンウェイトおよびクローズドソースLCMをデータセット上で評価し,その性能を詳細に分析した。
さらに,複数の質問に対する回答位置や注意パターンなどの表面的ヒューリスティックにLLMがどのように依存しているかを実証的に示す。
最後に,LLM-as-a-judgeの評価と人的評価を比較し,低リソース言語における信頼性についていくつかの結論を導いた。
このようなきめ細かい評価はモデル限界を理解するのに不可欠であり、より言語的に有能なLLMの開発を知らせると同時に、テルグNLPにおける将来の研究の基盤としての役割も担っていると論じる。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Exploring the Multilingual NLG Evaluation Abilities of LLM-Based Evaluators [38.681443695708786]
本研究は,近年の10個のLLMの多言語評価性能を包括的に分析する。
参照応答をプロンプトから除外すると、様々な言語のパフォーマンスが向上することがわかった。
LLMに基づく評価器の多くは、低リソース言語よりも、高リソース言語における人間の判断と高い相関関係を示す。
論文 参考訳(メタデータ) (2025-03-06T12:04:29Z) - Truth Knows No Language: Evaluating Truthfulness Beyond English [11.20320645651082]
本稿では,バスク語,カタルーニャ語,ガリシア語,スペイン語の真正性を評価するために,TrathfulQAベンチマークをプロ翻訳して導入する。
本研究は, 人的評価, 複数選択尺度, LLM-as-a-Judge スコアを用いて, 基礎モデルと指導訓練モデルを比較し, 最先端のオープンLCMを12個評価した。
論文 参考訳(メタデータ) (2025-02-13T15:04:53Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity
and Infant Care [14.326936563564171]
大規模言語モデル(LLM)における誤情報評価のためのベンチマークCARE-MIを提案する。
提案するベンチマークは,LLMの広範利用と,これらのモデルが生成した誤情報を評価するためのデータセットの欠如とのギャップを埋めるものである。
ベンチマークの結果,母子関係や乳幼児ケアの分野では,現在の中国のLSMは完璧とは程遠いことが判明した。
論文 参考訳(メタデータ) (2023-07-04T03:34:19Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。