論文の概要: SeaExam and SeaBench: Benchmarking LLMs with Local Multilingual Questions in Southeast Asia
- arxiv url: http://arxiv.org/abs/2502.06298v1
- Date: Mon, 10 Feb 2025 09:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:22.738269
- Title: SeaExam and SeaBench: Benchmarking LLMs with Local Multilingual Questions in Southeast Asia
- Title(参考訳): SeaExamとSeaBench:東南アジアにおけるローカル多言語質問とLCMのベンチマーク
- Authors: Chaoqun Liu, Wenxuan Zhang, Jiahao Ying, Mahani Aljunied, Anh Tuan Luu, Lidong Bing,
- Abstract要約: 本研究では,東南アジア(SEA)アプリケーションシナリオにおけるLarge Language Models(LLM)の機能を評価するために,SeaExamとSeaBenchという2つの新しいベンチマークを紹介する。
英語翻訳から派生した既存の多言語データセットとは異なり、これらのベンチマークはSEA領域の現実シナリオに基づいて構築されている。
- 参考スコア(独自算出の注目度): 72.93218369941734
- License:
- Abstract: This study introduces two novel benchmarks, SeaExam and SeaBench, designed to evaluate the capabilities of Large Language Models (LLMs) in Southeast Asian (SEA) application scenarios. Unlike existing multilingual datasets primarily derived from English translations, these benchmarks are constructed based on real-world scenarios from SEA regions. SeaExam draws from regional educational exams to form a comprehensive dataset that encompasses subjects such as local history and literature. In contrast, SeaBench is crafted around multi-turn, open-ended tasks that reflect daily interactions within SEA communities. Our evaluations demonstrate that SeaExam and SeaBench more effectively discern LLM performance on SEA language tasks compared to their translated benchmarks. This highlights the importance of using real-world queries to assess the multilingual capabilities of LLMs.
- Abstract(参考訳): 本研究では、東南アジア(SEA)アプリケーションシナリオにおけるLarge Language Models(LLM)の機能を評価するために設計された2つの新しいベンチマークであるSeaExamとSeaBenchを紹介する。
英語翻訳から派生した既存の多言語データセットとは異なり、これらのベンチマークはSEA領域の現実シナリオに基づいて構築されている。
SeaExamは、地域教育試験から、地域の歴史や文学などの主題を包含する包括的データセットを形成する。
対照的にSeaBenchは、SEAコミュニティ内の日々のインタラクションを反映したマルチターンでオープンなタスクを中心に開発されている。
評価の結果,SeaExam と SeaBench は,SEA 言語タスクにおける LLM の性能を,翻訳したベンチマークと比較し,より効果的に評価できることがわかった。
このことは、LLMの多言語機能を評価するために現実世界のクエリを使うことの重要性を強調している。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - Analyzing Multilingual Competency of LLMs in Multi-Turn Instruction
Following: A Case Study of Arabic [1.0878040851638]
GPT-4を英語とアラビア語の問合せのための一様評価器として使用し、様々なオープンエンドタスクにおけるLCMの性能を評価し比較する。
マルチリンガルおよびマルチターンデータセットを用いた微調整ベースモデルは、スクラッチからトレーニングされたマルチリンガルデータと競合する可能性がある。
論文 参考訳(メタデータ) (2023-10-23T11:40:04Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Towards Unifying Multi-Lingual and Cross-Lingual Summarization [43.89340385650822]
我々は多言語要約(MLS)と多言語要約(CLS)をより一般的な設定、すなわち多対多要約(M2MS)に統一することを目指している。
M2MS への第一歩として,M2MS が MLS や CLS よりも多言語でタスク知識を伝達できることを示す予備的研究を行った。
本稿では,3段階の事前学習を通して言語モデリング,言語横断能力,要約能力を学ぶ,事前学習型M2MSモデルであるPiscesを提案する。
論文 参考訳(メタデータ) (2023-05-16T06:53:21Z) - SMTCE: A Social Media Text Classification Evaluation Benchmark and
BERTology Models for Vietnamese [3.0938904602244355]
本稿では,様々なSMTCタスクを対象としたデータセットとモデルの収集として,ソーシャルメディアテキスト分類評価(SMTCE)ベンチマークを紹介する。
我々は,多言語BERTベースモデルと単言語BERTベースモデルの有効性をベンチマークで実装し,解析する。
このベンチマークは、多言語および単言語BERTベースのモデルを客観的に評価し、ベトナム語のBERTologyに関する将来の研究に役立つだろう。
論文 参考訳(メタデータ) (2022-09-21T16:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。