論文の概要: VN-MTEB: Vietnamese Massive Text Embedding Benchmark
- arxiv url: http://arxiv.org/abs/2507.21500v1
- Date: Tue, 29 Jul 2025 04:48:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.661417
- Title: VN-MTEB: Vietnamese Massive Text Embedding Benchmark
- Title(参考訳): VN-MTEB:ベトナムの大規模テキストベンチマーク
- Authors: Loc Pham, Tung Luu, Thu Vo, Minh Nguyen, Viet Hoang,
- Abstract要約: ベトナムは、インターネットトラフィックとオンライン毒性の両面でトップ国にランクインしている。
私たちのベンチマークはベトナム語テキストの埋め込み用に特別に設計された6つのタスクから41のデータセットで構成されています。
本分析では, ロータリー位置埋め込みを用いたより大規模で複雑なモデルでは, 絶対位置埋め込みを組込み作業に用いたモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.5205587217393737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vietnam ranks among the top countries in terms of both internet traffic and online toxicity. As a result, implementing embedding models for recommendation and content control duties in applications is crucial. However, a lack of large-scale test datasets, both in volume and task diversity, makes it tricky for scientists to effectively evaluate AI models before deploying them in real-world, large-scale projects. To solve this important problem, we introduce a Vietnamese benchmark, VN-MTEB for embedding models, which we created by translating a large number of English samples from the Massive Text Embedding Benchmark using our new automated framework. We leverage the strengths of large language models (LLMs) and cutting-edge embedding models to conduct translation and filtering processes to retain high-quality samples, guaranteeing a natural flow of language and semantic fidelity while preserving named entity recognition (NER) and code snippets. Our comprehensive benchmark consists of 41 datasets from six tasks specifically designed for Vietnamese text embeddings. In our analysis, we find that bigger and more complex models using Rotary Positional Embedding outperform those using Absolute Positional Embedding in embedding tasks. Datasets are available at HuggingFace: https://huggingface.co/collections/GreenNode/vn-mteb-68871433f0f7573b8e1a6686
- Abstract(参考訳): ベトナムは、インターネットトラフィックとオンライン毒性の両面でトップ国にランクインしている。
その結果、アプリケーションにレコメンデーションとコンテンツ制御の義務を組み込むための埋め込みモデルを実装することが重要である。
しかし、ボリュームとタスクの多様性の両方において、大規模なテストデータセットが欠如しているため、現実の大規模プロジェクトにデプロイする前に、科学者がAIモデルを効果的に評価することは難しい。
この重要な問題を解決するため、我々はベトナムのベンチマークであるVN-MTEBを導入し、新しい自動フレームワークを用いてMassive Text Embedding Benchmarkから多数の英語サンプルを翻訳した。
我々は、大言語モデル(LLM)と最先端埋め込みモデルの強みを活用して、翻訳およびフィルタリングプロセスを実行し、高品質なサンプルを保存し、名前付きエンティティ認識(NER)とコードスニペットを保存しながら、言語と意味的忠実性の自然なフローを保証する。
包括的なベンチマークはベトナム語テキストの埋め込み用に特別に設計された6つのタスクから41のデータセットで構成されています。
本分析では, ロータリー位置埋め込みを用いたより大規模で複雑なモデルでは, 絶対位置埋め込みを組込み作業に用いたモデルよりも優れていた。
https://huggingface.co/collections/GreenNode/vn-mteb-68871433f0f7573b8e1a6686
関連論文リスト
- MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。
51個の埋め込みモデルを大規模に比較した。
すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文 参考訳(メタデータ) (2024-05-30T20:34:37Z) - ViHateT5: Enhancing Hate Speech Detection in Vietnamese With A Unified Text-to-Text Transformer Model [0.0]
提案する大規模ドメイン固有データセット VOZ-HSD を事前トレーニングした T5 ベースのモデルである ViHateT5 を紹介する。
ViHateT5はテキストからテキストへのアーキテクチャのパワーを活用することで、統一モデルを使用して複数のタスクに対処し、ベトナムのすべての標準HSDベンチマークで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-05-23T03:31:50Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。