論文の概要: Leveraging Domain Adaptation and Data Augmentation to Improve Qur'anic
IR in English and Arabic
- arxiv url: http://arxiv.org/abs/2312.02803v1
- Date: Tue, 5 Dec 2023 14:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:18:05.002687
- Title: Leveraging Domain Adaptation and Data Augmentation to Improve Qur'anic
IR in English and Arabic
- Title(参考訳): 英語とアラビア語におけるQur'anic IR改善のためのドメイン適応とデータ拡張の活用
- Authors: Vera Pavlova
- Abstract要約: トレーニングモデルには大量のデータが必要であり、ドメイン内でのトレーニングでは取得が困難である。
我々は、MRR@10とNDCG@5の測定結果を大幅に改善するデータ拡張手法を採用している。
英語のIRタスクのためのイスラムコーパスとドメイン固有のモデルが欠如していることは、このリソース不足に対処する動機となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we approach the problem of Qur'anic information retrieval (IR)
in Arabic and English. Using the latest state-of-the-art methods in neural IR,
we research what helps to tackle this task more efficiently. Training retrieval
models requires a lot of data, which is difficult to obtain for training
in-domain. Therefore, we commence with training on a large amount of general
domain data and then continue training on in-domain data. To handle the lack of
in-domain data, we employed a data augmentation technique, which considerably
improved results in MRR@10 and NDCG@5 metrics, setting the state-of-the-art in
Qur'anic IR for both English and Arabic. The absence of an Islamic corpus and
domain-specific model for IR task in English motivated us to address this lack
of resources and take preliminary steps of the Islamic corpus compilation and
domain-specific language model (LM) pre-training, which helped to improve the
performance of the retrieval models that use the domain-specific LM as the
shared backbone. We examined several language models (LMs) in Arabic to select
one that efficiently deals with the Qur'anic IR task. Besides transferring
successful experiments from English to Arabic, we conducted additional
experiments with retrieval task in Arabic to amortize the scarcity of general
domain datasets used to train the retrieval models. Handling Qur'anic IR task
combining English and Arabic allowed us to enhance the comparison and share
valuable insights across models and languages.
- Abstract(参考訳): 本研究では,アラビア語と英語におけるQur'anic Information Search(IR)の問題にアプローチする。
ニューラルIRにおける最新の最先端の手法を用いて、この課題にもっと効率的に取り組むために何が役立つかを研究する。
トレーニングモデルには大量のデータが必要であり、ドメイン内でのトレーニングでは取得が困難である。
そこで我々は,大量の汎用ドメインデータのトレーニングを開始し,その後,ドメイン内のデータのトレーニングを継続する。
ドメイン内のデータ不足に対処するため、MRR@10とNDCG@5の測定結果を大幅に改善するデータ拡張手法を用い、英語とアラビア語の両方でクルアニックIRの最先端を設定した。
英語におけるirタスクのためのイスラムコーパスとドメイン固有モデルがないことは、このリソースの欠如に対処し、イスラムコーパスコンパイルとドメイン固有言語モデル(lm)事前学習の予備ステップを取る動機となり、ドメイン固有lmを共有バックボーンとして使用する検索モデルのパフォーマンス向上に寄与した。
アラビア語における複数の言語モデル(LM)について検討し、クルアニックIRタスクを効率的に扱う言語を選択した。
英語からアラビア語へ成功した実験に加えて,検索モデルの学習に使用される一般ドメインデータセットの不足を償却するために,アラビア語における検索タスクに関する追加実験を行った。
Qur'anic IRタスクを英語とアラビア語を組み合わせて処理することで、比較を強化し、モデルや言語間で貴重な洞察を共有することができます。
関連論文リスト
- ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文 参考訳(メタデータ) (2024-03-26T16:37:54Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Pre-trained Transformer-Based Approach for Arabic Question Answering : A
Comparative Study [0.5801044612920815]
4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変圧器モデルの評価を行った。
我々は, AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整し, 比較した。
論文 参考訳(メタデータ) (2021-11-10T12:33:18Z) - Accenture at CheckThat! 2021: Interesting claim identification and
ranking with contextually sensitive lexical training data augmentation [0.0]
本稿では,CLEF2021 CheckThat! Lab, Task 1におけるAccenture Teamのアプローチについて論じる。
ソーシャルメディア上での主張が、幅広い読者にとって興味深いものなのか、事実確認されるべきなのかを特定できる。
Twitterのトレーニングとテストデータは、英語、アラビア語、スペイン語、トルコ語、ブルガリア語で提供されている。
論文 参考訳(メタデータ) (2021-07-12T18:46:47Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。