論文の概要: Multi-Lingual Malaysian Embedding: Leveraging Large Language Models for
Semantic Representations
- arxiv url: http://arxiv.org/abs/2402.03053v1
- Date: Mon, 5 Feb 2024 14:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:46:50.062260
- Title: Multi-Lingual Malaysian Embedding: Leveraging Large Language Models for
Semantic Representations
- Title(参考訳): 多言語マレーシア語埋め込み: 意味表現に大規模言語モデルを活用する
- Authors: Husein Zolkepli, Aisyah Razak, Kamarul Adha, Ariff Nazhan
- Abstract要約: セマンティック類似性と検索拡張タスクに適した2つのモデルをリリースする。
Semantic similarityでは、6億のパラメータ Llama2 モデルが OpenAI のテキスト埋め込み-ada よりも優れています。
RAGモデルの領域では、マレーシアの文脈におけるOpenAIテキスト埋め込みアダと競合することが証明されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a comprehensive exploration of finetuning Malaysian
language models, specifically Llama2 and Mistral, on embedding tasks involving
negative and positive pairs. We release two distinct models tailored for
Semantic Similarity and Retrieval-Augmented Generation (RAG).
For Semantic Similarity, our 600 million parameter Llama2 model outperforms
OpenAI text-embedding-ada-002 across all recall@k metrics for b.cari.com.my,
c.cari.com.my, Malay news, and Malaysian Twitter test sets.
In the realm of RAG models, our approach proves competitive with OpenAI
text-embedding-ada-002 in the Malaysian context. Notably, our 2 billion
parameter Llama2 model achieves superior Recall@5, Recall@10 for the "Melayu"
keyword research papers dataset and excels in Recall@3, Recall@5, and Recall@10
for the lom.agc.gov.my dataset.
These findings underscore the effectiveness of our finetuning strategy and
highlight the performance gains in both Semantic Similarity and RAG tasks.
All models released at
https://huggingface.co/collections/mesolitica/malaysian-embedding-6523612bfe5881ad35f81b99
- Abstract(参考訳): 本稿では,マレーシアの言語モデル,特にllama2とmistralを,負のペアと正のペアを含む組込みタスクについて包括的に検討する。
セマンティック類似性と検索拡張生成(RAG)に適した2つの異なるモデルをリリースする。
Semantic similarityでは、私たちの6億のパラメータLlama2モデルが、すべてのrecall@kメトリクスでOpenAIのテキスト埋め込み-ada-002を上回っています。
B.cari.com.my
c.cari.com.my、マレーニュース、マレーシアのTwitterテストセット。
RAGモデルの領域では、マレーシアの文脈でOpenAIのテキスト埋め込み-ada-002と競合することが証明されている。
特に、20億のパラメータであるLlama2モデルでは、"Melayu"キーワードのRecall@5、"Melayu"キーワードのRecall@10、lom.agc.gov.myデータセットのRecall@3、Recall@5、Recall@10が優れている。
これらの結果から,セマンティックな類似性とRAGタスクの両方において,ファインタニング戦略の有効性を強調した。
すべてのモデルがhttps://huggingface.co/collections/mesolitica/malaysian-embedding-6523612bfe5881ad35f81b99でリリース
関連論文リスト
- Xmodel-1.5: An 1B-scale Multilingual LLM [4.298869484709548]
2兆のトークンで事前訓練された多言語大言語モデルであるXmodel-1.5を紹介する。
Xmodel-1.5は65,280個のトークンを持つカスタムユニグラムトークンライザを採用し、効率と精度の両方を最適化している。
このモデルは、タイ語、アラビア語、フランス語、中国語、英語など、複数の言語で競合する結果をもたらす。
論文 参考訳(メタデータ) (2024-11-15T10:01:52Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling [0.0]
我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
論文 参考訳(メタデータ) (2024-03-02T12:31:22Z) - MaLLaM -- Malaysia Large Language Model [0.0]
私たちは、349GBのデータセットで11億、30億、50億のパラメータを持つモデルをトレーニングしました。
MaLLaMは、マレー語における自然言語理解と生成タスクの強化に貢献している。
論文 参考訳(メタデータ) (2024-01-26T06:56:05Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - CrossSum: Beyond English-Centric Cross-Lingual Summarization for 1,500+
Language Pairs [27.574815708395203]
CrossSumは1500以上の言語対の1,68万記事要約サンプルからなる大規模言語間要約データセットである。
我々は、多言語抽象要約データセットからのクロス言語検索により、異なる言語で記述された並列記事の整列により、クロスサムを作成する。
対象言語における記事の要約が可能な言語間要約モデルを効果的に学習する多段階データサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-16T11:40:36Z) - Scaling ASR Improves Zero and Few Shot Learning [23.896440724468246]
大規模データセットでもっとも有用なサンプルを見つけるために,トレーニングデータを効率的にスケールするためのデータ選択手法を提案する。
1-10Bパラメータのユニバーサル英語ASRモデルを訓練することにより、音声認識性能の限界を多くの領域に広げる。
脳損傷による障害のある話者に対して、私たちの最高のゼロショットモデルと少数ショットモデルは、それぞれAphasiaBankテストセットで22%と60%の相対的な改善を達成しています。
論文 参考訳(メタデータ) (2021-11-10T21:18:59Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。