論文の概要: Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning
- arxiv url: http://arxiv.org/abs/2407.21139v2
- Date: Thu, 1 Aug 2024 12:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-02 13:25:30.673356
- Title: Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning
- Title(参考訳): Nested Embedding Learning を用いたアラビア語NLPにおける意味的類似性理解の強化
- Authors: Omer Nacar, Anis Koubaa,
- Abstract要約: この研究は、Matryoshka Embedding Learningを通じてアラビア語の入れ子埋め込みモデルをトレーニングするための新しいフレームワークを提示している。
我々の革新的な貢献には、様々な文類似性データセットをアラビア語に翻訳することが含まれる。
アラビア自然言語推論三重項データセットの埋め込みモデルを訓練し、その性能を評価した。
- 参考スコア(独自算出の注目度): 0.6752538702870792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a novel framework for training Arabic nested embedding models through Matryoshka Embedding Learning, leveraging multilingual, Arabic-specific, and English-based models, to highlight the power of nested embeddings models in various Arabic NLP downstream tasks. Our innovative contribution includes the translation of various sentence similarity datasets into Arabic, enabling a comprehensive evaluation framework to compare these models across different dimensions. We trained several nested embedding models on the Arabic Natural Language Inference triplet dataset and assessed their performance using multiple evaluation metrics, including Pearson and Spearman correlations for cosine similarity, Manhattan distance, Euclidean distance, and dot product similarity. The results demonstrate the superior performance of the Matryoshka embedding models, particularly in capturing semantic nuances unique to the Arabic language. Results demonstrated that Arabic Matryoshka embedding models have superior performance in capturing semantic nuances unique to the Arabic language, significantly outperforming traditional models by up to 20-25\% across various similarity metrics. These results underscore the effectiveness of language-specific training and highlight the potential of Matryoshka models in enhancing semantic textual similarity tasks for Arabic NLP.
- Abstract(参考訳): この研究は、多言語、アラビア語固有の、英語ベースのモデルを活用し、様々なアラビア語のNLP下流タスクにおける入れ子埋め込みモデルのパワーを強調するために、Matryoshka Embedding Learningを通じて、アラビア語の入れ子埋め込みモデルをトレーニングするための新しいフレームワークを提示している。
我々の革新的な貢献には、様々な文類似性データセットをアラビア語に翻訳することが含まれており、様々な次元でこれらのモデルを総合的な評価フレームワークで比較することができる。
アラビア自然言語推論三重項データセットを用いたネスト埋め込みモデルの訓練を行い,コサイン類似性,マンハッタン距離,ユークリッド距離,ドット製品類似性などのPearsonとSpearmanの相関関係など,複数の評価指標を用いて評価を行った。
この結果は、マトリオシュカの埋め込みモデルの優れた性能を示し、特にアラビア語特有の意味的ニュアンスを捉えた。
その結果、アラビア・マトリオシュカの埋め込みモデルは、アラビア語固有の意味的ニュアンスを捉えるのに優れた性能を示し、様々な類似度指標で従来のモデルよりも最大20~25倍高い性能を示した。
これらの結果は、アラビア語NLPにおける意味的テキスト類似性タスクの強化において、言語固有の訓練の有効性を強調し、Matryoshkaモデルの可能性を強調した。
関連論文リスト
- ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。
我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。
人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-22T05:35:17Z) - GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - Training a Bilingual Language Model by Mapping Tokens onto a Shared
Character Space [2.9914612342004503]
我々は、ヘブライ語でアラビア文字の翻訳版を用いてバイリンガルアラビア語・ヘブライ語モデルを訓練する。
両言語に統一的なスクリプトを用いた言語モデルの性能を機械翻訳を用いて評価する。
論文 参考訳(メタデータ) (2024-02-25T11:26:39Z) - ArabianGPT: Native Arabic GPT-based Large Language Model [2.8623940003518156]
本稿ではアラビアンLLMスイート内の一連のトランスフォーマーモデルであるアラビアンGPTを提案する。
これらのモデルに不可欠なアラナイザー・トークンーザはアラビア文字のユニークな形態的側面に対処する。
感情分析では、微調整されたアラビアのGPT-0.1Bモデルは95%の顕著な精度を達成し、ベースモデルの56%から大幅に増加した。
論文 参考訳(メタデータ) (2024-02-23T13:32:47Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。