論文の概要: SeaExam and SeaBench: Benchmarking LLMs with Local Multilingual Questions in Southeast Asia
- arxiv url: http://arxiv.org/abs/2502.06298v1
- Date: Mon, 10 Feb 2025 09:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:22.738269
- Title: SeaExam and SeaBench: Benchmarking LLMs with Local Multilingual Questions in Southeast Asia
- Title(参考訳): SeaExamとSeaBench:東南アジアにおけるローカル多言語質問とLCMのベンチマーク
- Authors: Chaoqun Liu, Wenxuan Zhang, Jiahao Ying, Mahani Aljunied, Anh Tuan Luu, Lidong Bing,
- Abstract要約: 本研究では,東南アジア(SEA)アプリケーションシナリオにおけるLarge Language Models(LLM)の機能を評価するために,SeaExamとSeaBenchという2つの新しいベンチマークを紹介する。
英語翻訳から派生した既存の多言語データセットとは異なり、これらのベンチマークはSEA領域の現実シナリオに基づいて構築されている。
- 参考スコア(独自算出の注目度): 72.93218369941734
- License:
- Abstract: This study introduces two novel benchmarks, SeaExam and SeaBench, designed to evaluate the capabilities of Large Language Models (LLMs) in Southeast Asian (SEA) application scenarios. Unlike existing multilingual datasets primarily derived from English translations, these benchmarks are constructed based on real-world scenarios from SEA regions. SeaExam draws from regional educational exams to form a comprehensive dataset that encompasses subjects such as local history and literature. In contrast, SeaBench is crafted around multi-turn, open-ended tasks that reflect daily interactions within SEA communities. Our evaluations demonstrate that SeaExam and SeaBench more effectively discern LLM performance on SEA language tasks compared to their translated benchmarks. This highlights the importance of using real-world queries to assess the multilingual capabilities of LLMs.
- Abstract(参考訳): 本研究では、東南アジア(SEA)アプリケーションシナリオにおけるLarge Language Models(LLM)の機能を評価するために設計された2つの新しいベンチマークであるSeaExamとSeaBenchを紹介する。
英語翻訳から派生した既存の多言語データセットとは異なり、これらのベンチマークはSEA領域の現実シナリオに基づいて構築されている。
SeaExamは、地域教育試験から、地域の歴史や文学などの主題を包含する包括的データセットを形成する。
対照的にSeaBenchは、SEAコミュニティ内の日々のインタラクションを反映したマルチターンでオープンなタスクを中心に開発されている。
評価の結果,SeaExam と SeaBench は,SEA 言語タスクにおける LLM の性能を,翻訳したベンチマークと比較し,より効果的に評価できることがわかった。
このことは、LLMの多言語機能を評価するために現実世界のクエリを使うことの重要性を強調している。
関連論文リスト
- SEA-HELM: Southeast Asian Holistic Evaluation of Language Models [2.119348427296952]
SEA-HELMは、東南アジア(SEA)地域の言語に対する包括的で信頼性の高い評価スイートである。
1)NLPクラシック、(2)LDM特化、(3)SEA言語学、(4)SEA文化、(5)安全の5つの中核柱から構成される。
SEA-HELMは現在、フィリピン、インドネシア、タミル、タイ、ベトナムをサポートしている。
論文 参考訳(メタデータ) (2025-02-20T06:32:45Z) - SailCompass: Towards Reproducible and Robust Evaluation for Southeast Asian Languages [28.850331326601886]
東南アジア言語(SEA)におけるLarge Language Models(LLM)の評価のための再現可能で堅牢な評価ベンチマークであるSailを紹介する。
Sailは3つの主要なSEA言語を含み、14のデータセットを含む8つの主要なタスクが3つのタスクタイプ(生成、多重選択、分類)をカバーする。
論文 参考訳(メタデータ) (2024-12-02T06:42:51Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Analyzing Multilingual Competency of LLMs in Multi-Turn Instruction
Following: A Case Study of Arabic [1.0878040851638]
GPT-4を英語とアラビア語の問合せのための一様評価器として使用し、様々なオープンエンドタスクにおけるLCMの性能を評価し比較する。
マルチリンガルおよびマルチターンデータセットを用いた微調整ベースモデルは、スクラッチからトレーニングされたマルチリンガルデータと競合する可能性がある。
論文 参考訳(メタデータ) (2023-10-23T11:40:04Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。