論文の概要: SEA-BED: Southeast Asia Embedding Benchmark
- arxiv url: http://arxiv.org/abs/2508.12243v2
- Date: Mon, 25 Aug 2025 03:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 12:26:22.522747
- Title: SEA-BED: Southeast Asia Embedding Benchmark
- Title(参考訳): SEA-BED:東南アジアでベンチマーク実施へ
- Authors: Wuttikorn Ponwitayarat, Raymond Ng, Jann Railey Montalan, Thura Aung, Jian Gang Ngui, Yosephine Susanto, William Tjhi, Panuthep Tasawong, Erik Cambria, Ekapol Chuangsuwanich, Sarana Nutanong, Peerat Limkonchotiwat,
- Abstract要約: 約7億人の話者を抱える東南アジア地域では、地域固有の埋め込みベンチマークが欠落している。
SEA-BEDは9つのタスクと10言語にまたがる169のデータセットを備えた最初の大規模埋め込みベンチマークである。
6つの研究にまたがる17の埋め込みモデルの評価,課題および言語課題の分析,ベンチマーク間比較,翻訳トレードオフについて検討した。
- 参考スコア(独自算出の注目度): 43.05386334897603
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sentence embeddings are essential for NLP tasks such as semantic search, re-ranking, and textual similarity. Although multilingual benchmarks like MMTEB broaden coverage, Southeast Asia (SEA) datasets are scarce and often machine-translated, missing native linguistic properties. With nearly 700 million speakers, the SEA region lacks a region-specific embedding benchmark. We introduce SEA-BED, the first large-scale SEA embedding benchmark with 169 datasets across 9 tasks and 10 languages, where 71% are formulated by humans, not machine generation or translation. We address three research questions: (1) which SEA languages and tasks are challenging, (2) whether SEA languages show unique performance gaps globally, and (3) how human vs. machine translations affect evaluation. We evaluate 17 embedding models across six studies, analyzing task and language challenges, cross-benchmark comparisons, and translation trade-offs. Results show sharp ranking shifts, inconsistent model performance among SEA languages, and the importance of human-curated datasets for low-resource languages like Burmese.
- Abstract(参考訳): セマンティック検索、再ランク付け、テキスト類似性などのNLPタスクには、文の埋め込みが不可欠である。
MMTEBのような多言語ベンチマークはカバー範囲を広げたが、東南アジア(SEA)のデータセットは乏しく、しばしば機械翻訳され、ネイティブな言語特性が欠落している。
7億近い話者を抱えるSEAリージョンには、リージョン固有の埋め込みベンチマークがない。
9つのタスクと10言語にわたる169のデータセットを備えた,最初の大規模SEA埋め込みベンチマークであるSEA-BEDを紹介した。
我々は,(1)SEA言語とタスクの課題,(2)SEA言語がグローバルなパフォーマンスギャップを示すかどうか,(3)人間と機械の翻訳が評価にどう影響するか,という3つの研究課題に対処する。
6つの研究にまたがる17の埋め込みモデルの評価,課題および言語課題の分析,ベンチマーク間比較,翻訳トレードオフについて検討した。
結果から,SEA言語間のランク付けの急激な変化,SEA言語間の不整合モデル性能,ビルマ語のような低リソース言語に対する人為的なデータセットの重要性が示された。
関連論文リスト
- SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures [36.95168918567729]
既存のマルチ言語安全ベンチマークは、しばしば機械翻訳された英語データに依存している。
SEA-SafeguardBenchは,SEAの最初の人間認証安全ベンチマークである。
8つの言語、21,640のサンプル、および3つのサブセット(ジェネラル、イン・ザ・ワイルド、コンテンツ生成)をカバーする。
論文 参考訳(メタデータ) (2025-12-05T07:57:57Z) - SeaExam and SeaBench: Benchmarking LLMs with Local Multilingual Questions in Southeast Asia [72.93218369941734]
本研究では,東南アジア(SEA)アプリケーションシナリオにおけるLarge Language Models(LLM)の機能を評価するために,SeaExamとSeaBenchという2つの新しいベンチマークを紹介する。
英語翻訳から派生した既存の多言語データセットとは異なり、これらのベンチマークはSEA領域の現実シナリオに基づいて構築されている。
論文 参考訳(メタデータ) (2025-02-10T09:40:25Z) - SailCompass: Towards Reproducible and Robust Evaluation for Southeast Asian Languages [28.850331326601886]
東南アジア言語(SEA)におけるLarge Language Models(LLM)の評価のための再現可能で堅牢な評価ベンチマークであるSailを紹介する。
Sailは3つの主要なSEA言語を含み、14のデータセットを含む8つの主要なタスクが3つのタスクタイプ(生成、多重選択、分類)をカバーする。
論文 参考訳(メタデータ) (2024-12-02T06:42:51Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages [64.10040374077994]
SEACrowdは3つのモダリティにまたがる1000近い言語で標準化されたコーパスを統合する共同イニシアチブである。
私たちは、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-14T15:23:39Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。