論文の概要: TLUE: A Tibetan Language Understanding Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2503.12051v2
- Date: Thu, 27 Mar 2025 05:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:49:32.682481
- Title: TLUE: A Tibetan Language Understanding Evaluation Benchmark
- Title(参考訳): TLUE: チベット語理解評価ベンチマーク
- Authors: Fan Gao, Cheng Huang, Nyima Tashi, Xiangxiang Wang, Thupten Tsering, Ban Ma-bao, Renzeg Duojie, Gadeng Luosang, Rinchen Dongrub, Dorje Tashi, Xiao Feng, Yongbin Yu,
- Abstract要約: チベット語は700万人以上の人々が話しているが、大きな言語モデルの開発と評価は無視されている。
我々は,チベット語におけるLLMの能力を評価するための,最初の大規模ベンチマークであるTLUE(A Tibetan Language Understanding Evaluation Benchmark)を提案する。
- 参考スコア(独自算出の注目度): 7.69474325188718
- License:
- Abstract: Large language models (LLMs) have made tremendous progress in recent years, but low-resource languages, such as Tibetan, remain significantly underrepresented in their evaluation. Despite Tibetan being spoken by over seven million people, it has largely been neglected in the development and assessment of LLMs. To address this gap, we present TLUE (A Tibetan Language Understanding Evaluation Benchmark), the first large-scale benchmark for assessing LLMs' capabilities in Tibetan. TLUE comprises two major components: (1) a comprehensive multi-task understanding benchmark spanning 5 domains and 67 subdomains, and (2) a safety benchmark covering 7 subdomains. We evaluate a diverse set of state-of-the-art LLMs. Experimental results demonstrate that most LLMs perform below the random baseline, highlighting the considerable challenges LLMs face in processing Tibetan, a low-resource language. TLUE provides an essential foundation for driving future research and progress in Tibetan language understanding and underscores the need for greater inclusivity in LLM development.
- Abstract(参考訳): 大規模言語モデル (LLM) は近年大きな進歩を遂げているが、チベット語のような低リソース言語は評価において著しく過小評価されている。
チベット語は700万人以上の人々が話しているが、LLMの開発と評価は無視されている。
このギャップに対処するため,チベット語におけるLSMの能力を評価するための大規模なベンチマークであるTLUE(A Tibetan Language Understanding Evaluation Benchmark)を提案する。
TLUEは,(1)5ドメインと67サブドメインにまたがる総合マルチタスク理解ベンチマーク,(2)7サブドメインをカバーする安全ベンチマークの2つの主要コンポーネントから構成される。
我々は多種多様な最先端のLCMを評価した。
実験の結果,ほとんどのLLMはランダムベースライン以下で動作し,低リソース言語であるチベット語処理においてLLMが直面する課題を浮き彫りにしている。
TLUEは、チベット語理解における将来の研究と進歩を推進する上で不可欠な基盤を提供し、LLM開発におけるより大きな傾きの必要性を浮き彫りにしている。
関連論文リスト
- HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning [56.221060995324436]
大規模言語モデル(LLM)は、常識推論において顕著な能力を示している。
これらのモデルは、本当に常識的知識を理解しているのか、あるいは単に表現パターンを記憶しているだけなのか?
11,200のケースからなる大規模バイリンガルベンチマークであるHellaSwag-Proを紹介する。
論文 参考訳(メタデータ) (2025-02-17T03:24:02Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings [12.507989493130175]
GPT-4, Llama 2 および Gemini は, 東南アジアの他の低リソース言語と比較して, 英語での有効性が評価されている。
GPT-4はLlama 2とGeminiを5つのプロンプト設定と全言語で上回ったことを示唆している。
論文 参考訳(メタデータ) (2024-10-17T02:12:30Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Representing the Under-Represented: Cultural and Core Capability Benchmarks for Developing Thai Large Language Models [8.746788828655356]
大規模言語モデル(LLM)の急速な進歩は、堅牢な評価フレームワークの必要性を強調している。
タイ文化・言語情報ベンチマーク(ThaiCLI)とタイ文化・言語情報ベンチマーク(ThaiCLI)の2つの主要なベンチマークを提案する。
論文 参考訳(メタデータ) (2024-10-07T07:14:37Z) - Beyond Metrics: Evaluating LLMs' Effectiveness in Culturally Nuanced, Low-Resource Real-World Scenarios [29.56889133557681]
本研究では、WhatsAppチャットから派生したデータセットに対する感情分析において、7つの主要言語モデル(LLM)の性能を評価する。
Mistral-7bとMixtral-8x7bは高いF1スコアを得たが、GPT-3.5-Turbo, Llama-2-70b, Gemma-7bは言語的・文脈的ニュアンスを理解するのに苦労していた。
GPT-4とGPT-4-Turboは多様な言語入力を把握し、様々な文脈情報を管理するのに優れていた。
論文 参考訳(メタデータ) (2024-06-01T07:36:59Z) - Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。
TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文 参考訳(メタデータ) (2024-03-29T13:56:21Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls of Large Language Models on Bengali NLP [17.362068473064717]
大規模言語モデル(LLM)は、NLPにおいて最も重要なブレークスルーの1つである。
本稿では,ベンガル語での性能をベンチマークするために,LLMを総合的に評価するBenLLM-Evalを紹介する。
実験の結果、ベンガルのNLPタスクではゼロショットLLMは、現在のSOTA微調整モデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-09-22T20:29:34Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。