論文の概要: Hakim: Farsi Text Embedding Model
- arxiv url: http://arxiv.org/abs/2505.08435v1
- Date: Tue, 13 May 2025 10:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.526072
- Title: Hakim: Farsi Text Embedding Model
- Title(参考訳): Hakim: Farsiテキスト埋め込みモデル
- Authors: Mehran Sarmadi, Morteza Alikhani, Erfan Zinvandi, Zahra Pourbahman,
- Abstract要約: Hakimは、新しいテキスト埋め込みモデルで、FaMTEBベンチマークの既存のアプローチよりも8.5%パフォーマンス改善を実現している。
コーデシア、Pairsia-sup、Pairsia-unsupの3つの新しいデータセットを導入し、教師なしおよび教師なしのトレーニングシナリオをサポートする。
一方,RetroMAEに基づく言語モデルでは,テキスト情報検索に特に有効であることが証明されている。
- 参考スコア(独自算出の注目度): 1.0485739694839669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in text embedding have significantly improved natural language understanding across many languages, yet Persian remains notably underrepresented in large-scale embedding research. In this paper, we present Hakim, a novel state-of-the-art Persian text embedding model that achieves a 8.5% performance improvement over existing approaches on the FaMTEB benchmark, outperforming all previously developed Persian language models. As part of this work, we introduce three new datasets - Corpesia, Pairsia-sup, and Pairsia-unsup - to support supervised and unsupervised training scenarios. Additionally, Hakim is designed for applications in chatbots and retrieval-augmented generation (RAG) systems, particularly addressing retrieval tasks that require incorporating message history within these systems. We also propose a new baseline model built on the BERT architecture. Our language model consistently achieves higher accuracy across various Persian NLP tasks, while the RetroMAE-based model proves particularly effective for textual information retrieval applications. Together, these contributions establish a new foundation for advancing Persian language understanding.
- Abstract(参考訳): 近年のテキスト埋め込みの進歩は多くの言語で自然言語の理解が著しく改善されているが、ペルシア語は大規模な埋め込み研究において顕著に不足している。
本稿では,FMTEBベンチマークにおける既存手法よりも8.5%の性能向上を実現し,これまで開発されたペルシア語モデルを上回る性能向上を実現した新しいペルシャ語テキスト埋め込みモデルであるHakimを提案する。
この作業の一環として、コーデシア、Pairsia-sup、Pairsia-unsupという3つの新しいデータセットを導入し、教師なしおよび教師なしのトレーニングシナリオをサポートする。
さらに、Hakimはチャットボットや検索拡張生成システム(RAG)のアプリケーション向けに設計されており、特にこれらのシステムにメッセージ履歴を組み込む必要のある検索タスクに対処している。
また,BERTアーキテクチャ上に構築された新しいベースラインモデルを提案する。
一方,RetroMAEに基づく言語モデルは,テキスト情報検索に特に有効であることを証明している。
これらの貢献により、ペルシア語の理解を深めるための新しい基盤が確立された。
関連論文リスト
- FaMTEB: Massive Text Embedding Benchmark in Persian Language [9.204800002382042]
本稿では,Massive Text Embedding Benchmark (MTEB)上に構築されたペルシア語(Farsi)テキスト埋め込みの総合ベンチマークを提案する。
私たちのベンチマークには、7つの異なるタスクにまたがる63のデータセットが含まれています。
ペルシャ語および多言語埋め込みモデルの性能を様々なタスクで評価する。
論文 参考訳(メタデータ) (2025-02-17T09:05:21Z) - Matina: A Large-Scale 73B Token Persian Text Corpus [1.396406461086233]
既存のペルシアのデータセットは通常小さく、内容の多様性に欠けており、主にウェブログとニュース記事で構成されている。
Matina corpusは72.9Bトークンからなる新しいペルシアのデータセットで、高いデータ品質を確保するために慎重に前処理され、重複している。
論文 参考訳(メタデータ) (2025-02-13T11:22:19Z) - Advancing Retrieval-Augmented Generation for Persian: Development of Language Models, Comprehensive Benchmarks, and Best Practices for Optimization [0.0]
本研究は,ペルシャ固有のモデルを導入することにより,検索と生成の精度を向上させることを目的とする。
3つのデータセット(一般知識(PQuad)、科学的に専門化されたテキスト、組織報告)を使用して、これらのモデルを評価した。
MatinaSRobertaは以前の埋め込みよりも優れており、データセット間のコンテキスト関連性と検索精度に優れていた。
論文 参考訳(メタデータ) (2025-01-08T22:16:40Z) - PersianRAG: A Retrieval-Augmented Generation System for Persian Language [4.461903479596797]
Retrieval augmented generation (RAG) モデルは、大規模な事前訓練された生成モデルと外部検索機構を統合している。
これらの課題は、主に前処理、埋め込み、検索、迅速な構築、言語モデリング、システムの応答評価を含む。
これらの障害を克服する新しい解決策を提案し、ペルシャのベンチマークデータセットを用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-11-05T06:11:17Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Exploring Large Language Model for Graph Data Understanding in Online
Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。
この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文 参考訳(メタデータ) (2023-07-10T11:29:41Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。