Fugu-MT 論文翻訳(概要): SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

論文の概要: SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

arxiv url: http://arxiv.org/abs/2406.10118v4
Date: Tue, 08 Oct 2024 14:35:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 13:23:07.681961
Title: SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages
Title（参考訳）: SEACrowd: 東南アジア言語のための多言語マルチモーダルデータハブとベンチマークスイート
Authors: Holy Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya,
Abstract要約: SEACrowdは3つのモダリティにまたがる1000近い言語で標準化されたコーパスを統合する共同イニシアチブである。私たちは、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。
参考スコア（独自算出の注目度）: 64.10040374077994
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Southeast Asia (SEA) is a region rich in linguistic diversity and cultural variety, with over 1,300 indigenous languages and a population of 671 million people. However, prevailing AI models suffer from a significant lack of representation of texts, images, and audio datasets from SEA, compromising the quality of AI models for SEA languages. Evaluating models for SEA languages is challenging due to the scarcity of high-quality datasets, compounded by the dominance of English training data, raising concerns about potential cultural misrepresentation. To address these challenges, we introduce SEACrowd, a collaborative initiative that consolidates a comprehensive resource hub that fills the resource gap by providing standardized corpora in nearly 1,000 SEA languages across three modalities. Through our SEACrowd benchmarks, we assess the quality of AI models on 36 indigenous languages across 13 tasks, offering valuable insights into the current AI landscape in SEA. Furthermore, we propose strategies to facilitate greater AI advancements, maximizing potential utility and resource equity for the future of AI in SEA.
Abstract（参考訳）: 東南アジア (SEA) は言語多様性と文化的多様性に富んだ地域であり、1,300以上の先住民語があり、人口は671万人である。しかし、一般的なAIモデルは、SEA言語のテキスト、画像、オーディオデータセットの表現が著しく欠けており、SEA言語のAIモデルの品質が損なわれている。 SEA言語のモデルを評価することは、英語のトレーニングデータの優位性によって複合された高品質なデータセットが不足しているために困難であり、潜在的な文化的誤表現に対する懸念を提起する。これらの課題に対処するために,私たちは,3つのモードにわたる1,000近いSEA言語で標準化されたコーパスを提供することによって,リソースギャップを埋める包括的なリソースハブを統合する共同イニシアティブであるSEACrowdを紹介します。 SEACrowdベンチマークを通じて、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。さらに、我々は、SEAにおけるAIの将来のための潜在的ユーティリティとリソースエクイティを最大化し、AIのさらなる進歩を促進するための戦略を提案する。

関連論文リスト

Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.14451035425229]
大規模自動音声認識システムであるOmnilingual ASRを紹介する。自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。 ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
論文参考訳（メタデータ） (2025-11-12T19:48:09Z)
Tibetan Language and AI: A Comprehensive Survey of Resources, Methods and Challenges [27.73456704472439]
チベット語はアジアの主要な低資源言語の一つである。少数言語向けのAIシステムの開発への関心が高まっているにもかかわらず、チベット語はアクセス可能なデータリソースが不足しているため、限られた注目を集めている。本稿は,AI分野におけるチベットAIの現状を包括的に調査する。
論文参考訳（メタデータ） (2025-10-22T00:29:35Z)
The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages [18.087937520281965]
インドの13言語にまたがる950万のデータポイントからなる大規模合成命令追従データセットであるUpdeshを紹介した。自動メトリクスと人的アノテーションの両方を10k評価に取り入れた総合的な評価は、生成されたデータが高品質であることを示している。 Updeshでトレーニングされたモデルは、生成タスクにおいて一貫して大きな利益を達成し、多重選択スタイルのNLUタスクにおいて競争力を維持する。
論文参考訳（メタデータ） (2025-09-25T15:13:00Z)
The ML-SUPERB 2.0 Challenge: Towards Inclusive ASR Benchmarking for All Language Varieties [107.57160730151975]
我々は200以上の言語、アクセント、方言のデータからなる新しいテストスイートを構築し、SOTA多言語音声モデルを評価する。その結果, LIDの精度は23%, CERは18%向上した。アクセントと方言のデータでは、最も良い提出は30.2%低いCERと15.7%高いLIDの精度を得た。
論文参考訳（メタデータ） (2025-09-08T18:42:36Z)
SEA-BED: Southeast Asia Embedding Benchmark [43.05386334897603]
約7億人の話者を抱える東南アジア地域では、地域固有の埋め込みベンチマークが欠落している。 SEA-BEDは9つのタスクと10言語にまたがる169のデータセットを備えた最初の大規模埋め込みベンチマークである。 6つの研究にまたがる17の埋め込みモデルの評価,課題および言語課題の分析,ベンチマーク間比較,翻訳トレードオフについて検討した。
論文参考訳（メタデータ） (2025-08-17T05:10:40Z)
Chitrarth: Bridging Vision and Language for a Billion People [4.434971952378384]
我々は、包括的視覚言語モデル(VLM)であるChitrarth (Chitra: Image; Artha: Meaning)を紹介する。我々のモデルは、多言語画像テキストデータに基づいて訓練された視覚モジュールと、最先端(SOTA)多言語大言語モデル(LLM)を効果的に統合する。本モデルでは,低リソース言語を対象としたベンチマークのSOTA結果が得られたが,その効率は英語で維持されている。
論文参考訳（メタデータ） (2025-02-21T11:38:40Z)
Developing multilingual speech synthesis system for Ojibwe, Mi'kmaq, and Maliseet [4.889851090443267]
我々は,Ojibwe,Mi'kmaq,Maliseetの多言語テキスト音声(TTS)システムについて述べる。この結果から,3言語に類する多言語TSモデルをトレーニングすることで,単言語モデルよりも性能が向上できることが示唆された。
論文参考訳（メタデータ） (2025-02-04T20:36:55Z)
AIN: The Arabic INclusive Large Multimodal Model [71.29419186696138]
AIN (英語: AIN) は、英語とアラビア語で卓越するように設計された英語とアラビア語のバイリンガルLMMである。 AINは最先端のアラビア語のパフォーマンスを実証する一方で、英語の視覚能力も優れている。 AINの優れた能力は、先進的なマルチモーダル生成AIツールでアラビア語話者を強化するための重要なステップである。
論文参考訳（メタデータ） (2025-01-31T18:58:20Z)
LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文参考訳（メタデータ） (2024-11-20T16:59:41Z)
SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。 SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文参考訳（メタデータ） (2024-07-29T03:26:22Z)
Harnessing the Power of Artificial Intelligence to Vitalize Endangered Indigenous Languages: Technologies and Experiences [31.62071644137294]
我々は、世界の言語の多様性の低下と、AIとNLPに固有の倫理的課題をもたらすインディジェネラル言語について論じる。 Indigenous Language のための高品質な機械学習トランスレータの開発に励む成果を報告する。私たちは2023年と2024年にブラジルの先住民コミュニティで実施したプロジェクトで構築したプロトタイプを紹介します。
論文参考訳（メタデータ） (2024-07-17T14:46:37Z)
The #Somos600M Project: Generating NLP resources that represent the diversity of the languages from LATAM, the Caribbean, and Spain [0.0]
LATAM、カリブ海、スペインの言語は人工知能(AI)システムで表現する必要があるため、私たちは#Somos600Mプロジェクトを立ち上げた。世界の人口の7.5%にも拘わらず、インストラクション・チューン・大型言語モデル(LLM)のデータセットは公開されていない。我々は、教育と評価データセットの最初のバージョンを国際オープンソースコミュニティとして作成する方法について紹介する。
論文参考訳（メタデータ） (2024-07-01T23:01:41Z)
Compass: Large Multilingual Language Model for South-east Asia [0.0]
CompassLLMは東南アジアの言語に特化した多言語モデルである。我々のモデルはインドネシア語のような東南アジアの言語で優れた性能を示す。
論文参考訳（メタデータ） (2024-04-14T11:48:33Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。 SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文参考訳（メタデータ） (2023-12-01T17:17:56Z)
Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。 18の言語にまたがるアドホック検索に焦点を当てている。我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文参考訳（メタデータ） (2022-10-18T16:47:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。