Fugu-MT 論文翻訳(概要): SeaExam and SeaBench: Benchmarking LLMs with Local Multilingual Questions in Southeast Asia

論文の概要: SeaExam and SeaBench: Benchmarking LLMs with Local Multilingual Questions in Southeast Asia

arxiv url: http://arxiv.org/abs/2502.06298v1
Date: Mon, 10 Feb 2025 09:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.054958
Title: SeaExam and SeaBench: Benchmarking LLMs with Local Multilingual Questions in Southeast Asia
Title（参考訳）: SeaExamとSeaBench:東南アジアにおけるローカル多言語質問とLCMのベンチマーク
Authors: Chaoqun Liu, Wenxuan Zhang, Jiahao Ying, Mahani Aljunied, Anh Tuan Luu, Lidong Bing,
Abstract要約: 本研究では,東南アジア(SEA)アプリケーションシナリオにおけるLarge Language Models(LLM)の機能を評価するために,SeaExamとSeaBenchという2つの新しいベンチマークを紹介する。英語翻訳から派生した既存の多言語データセットとは異なり、これらのベンチマークはSEA領域の現実シナリオに基づいて構築されている。
参考スコア（独自算出の注目度）: 72.93218369941734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study introduces two novel benchmarks, SeaExam and SeaBench, designed to evaluate the capabilities of Large Language Models (LLMs) in Southeast Asian (SEA) application scenarios. Unlike existing multilingual datasets primarily derived from English translations, these benchmarks are constructed based on real-world scenarios from SEA regions. SeaExam draws from regional educational exams to form a comprehensive dataset that encompasses subjects such as local history and literature. In contrast, SeaBench is crafted around multi-turn, open-ended tasks that reflect daily interactions within SEA communities. Our evaluations demonstrate that SeaExam and SeaBench more effectively discern LLM performance on SEA language tasks compared to their translated benchmarks. This highlights the importance of using real-world queries to assess the multilingual capabilities of LLMs.
Abstract（参考訳）: 本研究では、東南アジア(SEA)アプリケーションシナリオにおけるLarge Language Models(LLM)の機能を評価するために設計された2つの新しいベンチマークであるSeaExamとSeaBenchを紹介する。英語翻訳から派生した既存の多言語データセットとは異なり、これらのベンチマークはSEA領域の現実シナリオに基づいて構築されている。 SeaExamは、地域教育試験から、地域の歴史や文学などの主題を包含する包括的データセットを形成する。対照的にSeaBenchは、SEAコミュニティ内の日々のインタラクションを反映したマルチターンでオープンなタスクを中心に開発されている。評価の結果,SeaExam と SeaBench は,SEA 言語タスクにおける LLM の性能を,翻訳したベンチマークと比較し,より効果的に評価できることがわかった。このことは、LLMの多言語機能を評価するために現実世界のクエリを使うことの重要性を強調している。

関連論文リスト

mSTEB: Massively Multilingual Evaluation of LLMs on Speech and Text Tasks [11.996399504336624]
我々は,大規模言語モデル(LLM)の性能を幅広いタスクで評価するための新しいベンチマークであるmSTEBを紹介する。我々は,Gemini 2.0 Flash や GPT-4o (Audio) などの主要な LLM や Qwen 2 Audio や Gemma 3 27B といった最先端のオープンモデルの性能を評価する。
論文参考訳（メタデータ） (2025-06-10T03:15:08Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
IberBench: LLM Evaluation on Iberian Languages [2.3034630097498883]
大規模言語モデル(LLM)は、特に英語以外の言語に対しては、包括的な評価が難しい。 IberBench は基本的な NLP タスクと産業関連 NLP タスクの両方において LLM 性能を評価するために設計されたベンチマークである。 1億から1400億のパラメータから23のLSMを評価し、その強度と限界に関する実証的な洞察を提供する。
論文参考訳（メタデータ） (2025-04-23T17:48:25Z)
SEA-LION: Southeast Asian Languages in One Network [16.12423506306059]
本稿では,Llama-SEA-LION-v3-8B-ITとGemma-SEA-LION-v3-9B-ITを紹介する。 LLMのSEA-LIONファミリーは、英語、中国語、インドネシア語、ベトナム語、マレー語、タイ語、ビルマ語、ラオス語、フィリピン語、タミル語、クメール語を含む11のSEA言語をサポートしている。
論文参考訳（メタデータ） (2025-04-08T07:24:51Z)
Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。 LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-06T05:15:34Z)
SEA-HELM: Southeast Asian Holistic Evaluation of Language Models [2.119348427296952]
SEA-HELMは、東南アジア(SEA)地域の言語に対する包括的で信頼性の高い評価スイートである。 1)NLPクラシック、(2)LDM特化、(3)SEA言語学、(4)SEA文化、(5)安全の5つの中核柱から構成される。 SEA-HELMは現在、フィリピン、インドネシア、タミル、タイ、ベトナムをサポートしている。
論文参考訳（メタデータ） (2025-02-20T06:32:45Z)
SailCompass: Towards Reproducible and Robust Evaluation for Southeast Asian Languages [28.850331326601886]
東南アジア言語(SEA)におけるLarge Language Models(LLM)の評価のための再現可能で堅牢な評価ベンチマークであるSailを紹介する。 Sailは3つの主要なSEA言語を含み、14のデータセットを含む8つの主要なタスクが3つのタスクタイプ(生成、多重選択、分類)をカバーする。
論文参考訳（メタデータ） (2024-12-02T06:42:51Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。 SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文参考訳（メタデータ） (2024-07-29T03:26:22Z)
SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。 SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文参考訳（メタデータ） (2023-12-01T17:17:56Z)
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks [12.665447518524187]
本研究の目的は、同一の多言語データセットで比較することで、SoTA LLMの非英語能力の徹底的な評価を行うことである。私たちのベンチマークは、低リソースのアフリカ言語を含む83の言語をカバーする22のデータセットで構成されています。また、データ汚染に関する研究を行い、複数のモデルが多言語評価ベンチマークで汚染される可能性が示唆された。
論文参考訳（メタデータ） (2023-11-13T16:45:37Z)
Analyzing Multilingual Competency of LLMs in Multi-Turn Instruction Following: A Case Study of Arabic [1.0878040851638]
GPT-4を英語とアラビア語の問合せのための一様評価器として使用し、様々なオープンエンドタスクにおけるLCMの性能を評価し比較する。マルチリンガルおよびマルチターンデータセットを用いた微調整ベースモデルは、スクラッチからトレーニングされたマルチリンガルデータと競合する可能性がある。
論文参考訳（メタデータ） (2023-10-23T11:40:04Z)
Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。本稿では, MMT における LLM の利点と課題を体系的に検討する。また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文参考訳（メタデータ） (2023-04-10T15:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。