論文の概要: Leveraging Domain Adaptation and Data Augmentation to Improve Qur'anic
IR in English and Arabic
- arxiv url: http://arxiv.org/abs/2312.02803v1
- Date: Tue, 5 Dec 2023 14:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:18:05.002687
- Title: Leveraging Domain Adaptation and Data Augmentation to Improve Qur'anic
IR in English and Arabic
- Title(参考訳): 英語とアラビア語におけるQur'anic IR改善のためのドメイン適応とデータ拡張の活用
- Authors: Vera Pavlova
- Abstract要約: トレーニングモデルには大量のデータが必要であり、ドメイン内でのトレーニングでは取得が困難である。
我々は、MRR@10とNDCG@5の測定結果を大幅に改善するデータ拡張手法を採用している。
英語のIRタスクのためのイスラムコーパスとドメイン固有のモデルが欠如していることは、このリソース不足に対処する動機となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we approach the problem of Qur'anic information retrieval (IR)
in Arabic and English. Using the latest state-of-the-art methods in neural IR,
we research what helps to tackle this task more efficiently. Training retrieval
models requires a lot of data, which is difficult to obtain for training
in-domain. Therefore, we commence with training on a large amount of general
domain data and then continue training on in-domain data. To handle the lack of
in-domain data, we employed a data augmentation technique, which considerably
improved results in MRR@10 and NDCG@5 metrics, setting the state-of-the-art in
Qur'anic IR for both English and Arabic. The absence of an Islamic corpus and
domain-specific model for IR task in English motivated us to address this lack
of resources and take preliminary steps of the Islamic corpus compilation and
domain-specific language model (LM) pre-training, which helped to improve the
performance of the retrieval models that use the domain-specific LM as the
shared backbone. We examined several language models (LMs) in Arabic to select
one that efficiently deals with the Qur'anic IR task. Besides transferring
successful experiments from English to Arabic, we conducted additional
experiments with retrieval task in Arabic to amortize the scarcity of general
domain datasets used to train the retrieval models. Handling Qur'anic IR task
combining English and Arabic allowed us to enhance the comparison and share
valuable insights across models and languages.
- Abstract(参考訳): 本研究では,アラビア語と英語におけるQur'anic Information Search(IR)の問題にアプローチする。
ニューラルIRにおける最新の最先端の手法を用いて、この課題にもっと効率的に取り組むために何が役立つかを研究する。
トレーニングモデルには大量のデータが必要であり、ドメイン内でのトレーニングでは取得が困難である。
そこで我々は,大量の汎用ドメインデータのトレーニングを開始し,その後,ドメイン内のデータのトレーニングを継続する。
ドメイン内のデータ不足に対処するため、MRR@10とNDCG@5の測定結果を大幅に改善するデータ拡張手法を用い、英語とアラビア語の両方でクルアニックIRの最先端を設定した。
英語におけるirタスクのためのイスラムコーパスとドメイン固有モデルがないことは、このリソースの欠如に対処し、イスラムコーパスコンパイルとドメイン固有言語モデル(lm)事前学習の予備ステップを取る動機となり、ドメイン固有lmを共有バックボーンとして使用する検索モデルのパフォーマンス向上に寄与した。
アラビア語における複数の言語モデル(LM)について検討し、クルアニックIRタスクを効率的に扱う言語を選択した。
英語からアラビア語へ成功した実験に加えて,検索モデルの学習に使用される一般ドメインデータセットの不足を償却するために,アラビア語における検索タスクに関する追加実験を行った。
Qur'anic IRタスクを英語とアラビア語を組み合わせて処理することで、比較を強化し、モデルや言語間で貴重な洞察を共有することができます。
関連論文リスト
- Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。
ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文 参考訳(メタデータ) (2024-11-09T11:37:18Z) - Exploring Retrieval Augmented Generation in Arabic [0.0]
Retrieval Augmented Generation (RAG) は自然言語処理において強力な技術である。
本稿ではアラビア文字に対するRAGの実装と評価について事例研究を行う。
論文 参考訳(メタデータ) (2024-08-14T10:03:28Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。