論文の概要: GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training
- arxiv url: http://arxiv.org/abs/2505.24581v1
- Date: Fri, 30 May 2025 13:29:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.969841
- Title: GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training
- Title(参考訳): GATE:Matryoshka表現学習とハイブリッドロストレーニングによる意味的テクスチャ類似性向上のための一般アラビア語テキスト埋め込み
- Authors: Omer Nacar, Anis Koubaa, Serry Sibaee, Yasser Al-Habashi, Adel Ammar, Wadii Boulila,
- Abstract要約: General Arabic Text Embedding (GATE) モデルはMTEBベンチマークのセマンティックテキスト類似性タスクで最先端のパフォーマンスを達成する。
Gateは、STSベンチマークで20-25%のパフォーマンス改善により、OpenAIを含むより大きなモデルを上回っている。
- 参考スコア(独自算出の注目度): 1.4231093967875448
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Semantic textual similarity (STS) is a critical task in natural language processing (NLP), enabling applications in retrieval, clustering, and understanding semantic relationships between texts. However, research in this area for the Arabic language remains limited due to the lack of high-quality datasets and pre-trained models. This scarcity of resources has restricted the accurate evaluation and advance of semantic similarity in Arabic text. This paper introduces General Arabic Text Embedding (GATE) models that achieve state-of-the-art performance on the Semantic Textual Similarity task within the MTEB benchmark. GATE leverages Matryoshka Representation Learning and a hybrid loss training approach with Arabic triplet datasets for Natural Language Inference, which are essential for enhancing model performance in tasks that demand fine-grained semantic understanding. GATE outperforms larger models, including OpenAI, with a 20-25% performance improvement on STS benchmarks, effectively capturing the unique semantic nuances of Arabic.
- Abstract(参考訳): 意味的テキスト類似性(STS)は自然言語処理(NLP)において重要なタスクであり、検索、クラスタリング、テキスト間の意味的関係の理解に応用することができる。
しかし、高品質なデータセットや事前訓練されたモデルが欠如しているため、この領域でのアラビア語の研究は依然として限られている。
この資源の不足は、アラビア語のテキストにおける意味的類似性の正確な評価と進歩を制限してきた。
本稿では,MTEBベンチマークにおけるセマンティックテキスト類似性タスクの最先端性能を実現するための一般アラビアテキスト埋め込み(GATE)モデルを提案する。
GATEは、Matryoshka Representation Learningと、自然言語推論のためのアラビア語のトリプルトデータセットによるハイブリッド損失トレーニングアプローチを活用している。
GATEは、STSベンチマークで20-25%のパフォーマンス向上を達成し、OpenAIを含むより大きなモデルよりも優れており、アラビア語のユニークなセマンティックなニュアンスを効果的に捉えている。
関連論文リスト
- CrosGrpsABS: Cross-Attention over Syntactic and Semantic Graphs for Aspect-Based Sentiment Analysis in a Low-Resource Language [0.5937476291232802]
Aspect-Based Sentiment Analysis (ABSA) は自然言語処理の基本的なタスクであり、テキストで表現された意見に対するきめ細かい洞察を提供する。
本研究は,構文グラフとセマンティックグラフ間の双方向の相互アテンションを活用し,アスペクトレベルの感情分類を強化する新しいハイブリッドフレームワークであるCrosGrpsABSを提案する。
低リソースのBengali ABSAデータセットと高リソースのSemEval 2014 Task 4データセットでCrosGrpsABSを評価した。
論文 参考訳(メタデータ) (2025-05-25T07:42:32Z) - Exploring Retrieval Augmented Generation in Arabic [0.0]
Retrieval Augmented Generation (RAG) は自然言語処理において強力な技術である。
本稿ではアラビア文字に対するRAGの実装と評価について事例研究を行う。
論文 参考訳(メタデータ) (2024-08-14T10:03:28Z) - Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning [0.6752538702870792]
この研究は、Matryoshka Embedding Learningを通じてアラビア語の入れ子埋め込みモデルをトレーニングするための新しいフレームワークを提示している。
我々の革新的な貢献には、様々な文類似性データセットをアラビア語に翻訳することが含まれる。
アラビア自然言語推論三重項データセットの埋め込みモデルを訓練し、その性能を評価した。
論文 参考訳(メタデータ) (2024-07-30T19:03:03Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Arabic aspect based sentiment analysis using BERT [0.0]
本稿では、BERTのような事前訓練された言語モデルからのコンテキスト埋め込みのモデリング機能について述べる。
我々は、このタスクに対処するために、シンプルだが効果的なBERTベースの神経ベースラインを構築しています。
実験結果によると, 単純な線形分類層を持つBERTアーキテクチャは, 最先端の成果を上回った。
論文 参考訳(メタデータ) (2021-07-28T11:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。