論文の概要: Enhanced Arabic Text Retrieval with Attentive Relevance Scoring
- arxiv url: http://arxiv.org/abs/2507.23404v1
- Date: Thu, 31 Jul 2025 10:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.516667
- Title: Enhanced Arabic Text Retrieval with Attentive Relevance Scoring
- Title(参考訳): 注意関係スコーリングによるアラビア文字検索の強化
- Authors: Salah Eddine Bekhouche, Azeddine Benlamoudi, Yazid Bounab, Fadi Dornaika, Abdenour Hadid,
- Abstract要約: アラビア語は自然言語処理と情報検索に特に挑戦している。
アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。
本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.053940320312355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arabic poses a particular challenge for natural language processing (NLP) and information retrieval (IR) due to its complex morphology, optional diacritics and the coexistence of Modern Standard Arabic (MSA) and various dialects. Despite the growing global significance of Arabic, it is still underrepresented in NLP research and benchmark resources. In this paper, we present an enhanced Dense Passage Retrieval (DPR) framework developed specifically for Arabic. At the core of our approach is a novel Attentive Relevance Scoring (ARS) that replaces standard interaction mechanisms with an adaptive scoring function that more effectively models the semantic relevance between questions and passages. Our method integrates pre-trained Arabic language models and architectural refinements to improve retrieval performance and significantly increase ranking accuracy when answering Arabic questions. The code is made publicly available at \href{https://github.com/Bekhouche/APR}{GitHub}.
- Abstract(参考訳): アラビア語は、自然言語処理(NLP)と情報検索(IR)に対して、その複雑な形態、オプションのダイアクリティカルティクス、現代標準アラビア語(MSA)と様々な方言の共存により、特別な課題を提起している。
アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。
本稿では,アラビア語に特化した拡張Dense Passage Retrieval(DPR)フレームワークを提案する。
我々のアプローチの核心は、標準的な相互作用機構を適応的なスコアリング関数に置き換え、質問と通路間の意味的関連をより効果的にモデル化する、新しい注意関連スコアリング(ARS)である。
本手法は,事前学習したアラビア語モデルとアーキテクチャの改良を統合し,検索性能を改善し,アラビア語の質問に答える際のランク付け精度を大幅に向上させる。
コードは \href{https://github.com/Bekhouche/APR}{GitHub} で公開されている。
関連論文リスト
- Open Automatic Speech Recognition Models for Classical and Modern Standard Arabic [15.807843278492847]
言語固有の課題に対処するために,アラビア語音声とテキスト処理の普遍的方法論を導入する。
我々は、FastConformerアーキテクチャに基づく2つの新しいモデルを訓練する。ひとつは、モダンスタンダードアラビア(MSA)用に特別に設計されたもので、もうひとつは、MSAと古典アラビア(CA)の両方のための最初の統一パブリックモデルである。
MSAモデルは、関連するデータセット上での最先端(SOTA)パフォーマンスで新しいベンチマークを設定し、統一モデルは、MSAの強いパフォーマンスを維持しながら、CAのためのダイアクリティカルティクスでSOTA精度を達成する。
論文 参考訳(メタデータ) (2025-07-18T14:42:18Z) - Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines [0.8944616102795021]
本研究では,アラビア語の自然言語処理における限界を,効果的なアラビア語逆辞書(RD)システムによって解決する。
幾何学的に減少する層を特徴とするセミエンコーダニューラルネットワークアーキテクチャを用いたトランスフォーマーに基づく新しいアプローチを提案する。
本手法は、包括的なデータセット構築プロセスを導入し、アラビア辞書定義の形式的品質基準を確立する。
論文 参考訳(メタデータ) (2025-04-30T09:56:36Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Exploring Retrieval Augmented Generation in Arabic [0.0]
Retrieval Augmented Generation (RAG) は自然言語処理において強力な技術である。
本稿ではアラビア文字に対するRAGの実装と評価について事例研究を行う。
論文 参考訳(メタデータ) (2024-08-14T10:03:28Z) - ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文 参考訳(メタデータ) (2024-03-26T16:37:54Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish
Corpus [3.8580784887142774]
本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。
アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
論文 参考訳(メタデータ) (2020-03-20T22:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。