論文の概要: SEA-Embedding: Open and Reproducible Text Embeddings for Southeast Asia
- arxiv url: http://arxiv.org/abs/2606.03027v1
- Date: Tue, 02 Jun 2026 02:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.687781
- Title: SEA-Embedding: Open and Reproducible Text Embeddings for Southeast Asia
- Title(参考訳): SEA埋め込み:東南アジア向けオープンで再現可能なテキスト埋め込み
- Authors: Peerat Limkonchotiwat, Raymond Ng, Sarana Nutanong, Jian Gang Ngui,
- Abstract要約: このSEA-Embedding(SEA-Embedding)は、公開データのみに基づいて訓練された東南アジアの言語のための、完全にオープンで再現可能なテキスト埋め込みパイプラインである。
SEA-EmbeddingはSEA-BEDの最先端の成果を達成しつつ、その領域に対する堅牢なテキスト埋め込みの体系的かつ再現可能な分析を可能にする。
- 参考スコア(独自算出の注目度): 14.505189965161158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text embeddings are fundamental to many downstream applications, making robustness important for real-world NLP. However, most recent state-of-the-art embedding models are not reproducible because they rely on closed or undisclosed training data, and they remain insufficiently robust for Southeast Asian languages. We present SEA-Embedding, a fully open and reproducible text-embedding pipeline for Southeast Asian languages trained only on publicly available data, and use it to study three core factors of robust embedding design: data composition, training objective, and base encoder initialization. SEA-Embedding achieves state-of-the-art results on SEA-BED while enabling systematic and reproducible analysis of robust text embeddings for the region.
- Abstract(参考訳): テキスト埋め込みは多くのダウンストリームアプリケーションに基本的であり、現実世界のNLPにとって堅牢性は重要である。
しかし、最近の最先端の埋め込みモデルは、クローズドまたは未公表のトレーニングデータに依存しており、東南アジアの言語には不十分な堅牢さを維持しているため、再現不可能である。
本報告では,東南アジアの言語を対象とした,オープンで再現可能なテキスト埋め込みパイプラインであるSEA-Embeddingについて述べる。このパイプラインを用いて,堅牢な埋め込み設計の3つの中核となる要素(データ合成,トレーニング目標,ベースエンコーダ初期化)について検討する。
SEA-EmbeddingはSEA-BEDの最先端の成果を達成しつつ、その領域に対する堅牢なテキスト埋め込みの体系的かつ再現可能な分析を可能にする。
関連論文リスト
- TajikNLP: An Open-Source Toolkit for Comprehensive Text Processing of Tajik (Cyrillic Script) [0.0]
タジク語はキリル文字で書かれており、一般に公開されている自然言語処理(NLP)ツールキットの点では、いまだに過小評価されている。
本稿では,オープンソースのPythonライブラリであるTajikNLPを紹介する。
論文 参考訳(メタデータ) (2026-05-06T07:32:35Z) - Segment, Embed, and Align: A Universal Recipe for Aligning Subtitles to Signing [60.9289697082021]
Segment、Embed、Align(SEA)は、複数の言語やドメインで動作する単一のフレームワークを提供する。
SEAは2つの事前訓練されたモデルを利用する: ビデオフレームシーケンスを個別の記号に分割し、次に、各サインのビデオクリップをテキストで共有潜在空間に埋め込む。
アライメントは、数時間のエピソードであっても、1分以内にCPU上で効率的に実行される軽量な動的プログラミング手順で実行される。
論文 参考訳(メタデータ) (2025-12-08T23:07:48Z) - Bhaasha, Bhasa, Zaban: A Survey for Low-Resourced Languages in South Asia -- Current Stage and Challenges [2.261759428153489]
本調査は,南アジア諸言語におけるNLPモデルの現状と課題について考察する。
データ、モデル、タスクという3つの重要な側面にまたがる進歩とギャップを提示します。
私たちの発見は、重要なドメイン(例えば、健康)に欠落したデータ、コードミキシング、標準化された評価ベンチマークの欠如など、大きな問題を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-15T04:31:22Z) - Mafoko: Structuring and Building Open Multilingual Terminologies for South African NLP [3.0720023574418622]
本稿では,アフリカ中心のNOODLフレームワークを用いて,基礎となるMafokoデータセットについて紹介する。
実験では、英語からツシヴェンダ語への機械翻訳の精度とドメイン固有の一貫性が大幅に向上した。
論文 参考訳(メタデータ) (2025-08-05T15:00:02Z) - Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models [90.54780244175511]
我々は、前身のGTE-Qwenシリーズよりも大幅に進歩したQwen3 Embeddingシリーズを紹介する。
Qwen3 Embeddingシリーズは、組み込みタスクと再ランクタスクの両方のためのモデルサイズの範囲を提供する。
Qwen3 Embeddingシリーズは様々なベンチマークで最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-06-05T15:49:48Z) - EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian [55.08460390792863]
EmoBench-UAはウクライナのテキストで感情を検出するための最初の注釈付きデータセットである。
その結果,ウクライナ語のような非主流言語における感情分類の課題が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-29T09:49:57Z) - Investigating the Impact of Language-Adaptive Fine-Tuning on Sentiment Analysis in Hausa Language Using AfriBERTa [2.5055584842618175]
感情分析(SA)は、自然言語処理(NLP)において、テキストで表される感情を識別することで重要な役割を担っている。
本研究では, 言語適応ファインチューニング(LAFT)の有効性について検討した。
論文 参考訳(メタデータ) (2025-01-19T11:52:46Z) - RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。