論文の概要: SEA-BED: Southeast Asia Embedding Benchmark
- arxiv url: http://arxiv.org/abs/2508.12243v1
- Date: Sun, 17 Aug 2025 05:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.629481
- Title: SEA-BED: Southeast Asia Embedding Benchmark
- Title(参考訳): SEA-BED:東南アジアでベンチマーク実施へ
- Authors: Wuttikorn Ponwitayarat, Raymond Ng, Jann Railey Montalan, Thura Aung, Jian Gang Ngui, Yosephine Susanto, William Tjhi, Panuthep Tasawong, Erik Cambria, Ekapol Chuangsuwanich, Sarana Nutanong, Peerat Limkonchotiwat,
- Abstract要約: 約7億人の話者を抱える東南アジア地域では、地域固有の埋め込みベンチマークが欠落している。
SEA-BEDは9つのタスクと10言語にまたがる169のデータセットを備えた最初の大規模埋め込みベンチマークである。
6つの研究にまたがる17の埋め込みモデルの評価,課題および言語課題の分析,ベンチマーク間比較,翻訳トレードオフについて検討した。
- 参考スコア(独自算出の注目度): 27.328557974244852
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sentence embeddings are essential for NLP tasks such as semantic search, re-ranking, and textual similarity. Although multilingual benchmarks like MMTEB broaden coverage, Southeast Asia (SEA) datasets are scarce and often machine-translated, missing native linguistic properties. With nearly 700 million speakers, the SEA region lacks a region-specific embedding benchmark. We introduce SEA-BED, the first large-scale SEA embedding benchmark with 169 datasets across 9 tasks and 10 languages, where 71% are formulated by humans, not machine generation or translation. We address three research questions: (1) which SEA languages and tasks are challenging, (2) whether SEA languages show unique performance gaps globally, and (3) how human vs. machine translations affect evaluation. We evaluate 17 embedding models across six studies, analyzing task and language challenges, cross-benchmark comparisons, and translation trade-offs. Results show sharp ranking shifts, inconsistent model performance among SEA languages, and the importance of human-curated datasets for low-resource languages like Burmese.
- Abstract(参考訳): セマンティック検索、再ランク付け、テキスト類似性などのNLPタスクには、文の埋め込みが不可欠である。
MMTEBのような多言語ベンチマークはカバー範囲を広げたが、東南アジア(SEA)のデータセットは乏しく、しばしば機械翻訳され、ネイティブな言語特性が欠落している。
7億近い話者を抱えるSEAリージョンには、リージョン固有の埋め込みベンチマークがない。
9つのタスクと10言語にわたる169のデータセットを備えた,最初の大規模SEA埋め込みベンチマークであるSEA-BEDを紹介した。
我々は,(1)SEA言語とタスクの課題,(2)SEA言語がグローバルなパフォーマンスギャップを示すかどうか,(3)人間と機械の翻訳が評価にどう影響するか,という3つの研究課題に対処する。
6つの研究にまたがる17の埋め込みモデルの評価,課題および言語課題の分析,ベンチマーク間比較,翻訳トレードオフについて検討した。
結果から,SEA言語間のランク付けの急激な変化,SEA言語間の不整合モデル性能,ビルマ語のような低リソース言語に対する人為的なデータセットの重要性が示された。
関連論文リスト
- SeaExam and SeaBench: Benchmarking LLMs with Local Multilingual Questions in Southeast Asia [72.93218369941734]
本研究では,東南アジア(SEA)アプリケーションシナリオにおけるLarge Language Models(LLM)の機能を評価するために,SeaExamとSeaBenchという2つの新しいベンチマークを紹介する。
英語翻訳から派生した既存の多言語データセットとは異なり、これらのベンチマークはSEA領域の現実シナリオに基づいて構築されている。
論文 参考訳(メタデータ) (2025-02-10T09:40:25Z) - SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages [64.10040374077994]
SEACrowdは3つのモダリティにまたがる1000近い言語で標準化されたコーパスを統合する共同イニシアチブである。
私たちは、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-14T15:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。