論文の概要: Multi-stage Training of Bilingual Islamic LLM for Neural Passage Retrieval
- arxiv url: http://arxiv.org/abs/2501.10175v1
- Date: Fri, 17 Jan 2025 13:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:56.326885
- Title: Multi-stage Training of Bilingual Islamic LLM for Neural Passage Retrieval
- Title(参考訳): ニューラルパス検索のためのバイリンガルイスラムLLMの多段階訓練
- Authors: Vera Pavlova,
- Abstract要約: この研究は、軽量なバイリンガル大言語モデル(LLM)を作成するために、言語削減技術を用いている。
ドメイン適応に対する我々のアプローチは、イランの領域内コーパスがアラビア語でのみ存在するイスラム領域で直面する固有の課題に対処する。
その結果、ドメイン適応と二言語的イスラム神経検索モデルの多段階学習法を組み合わせることで、下流検索タスクにおける単言語モデルよりも優れていることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study examines the use of Natural Language Processing (NLP) technology within the Islamic domain, focusing on developing an Islamic neural retrieval model. By leveraging the robust XLM-R model, the research employs a language reduction technique to create a lightweight bilingual large language model (LLM). Our approach for domain adaptation addresses the unique challenges faced in the Islamic domain, where substantial in-domain corpora exist only in Arabic while limited in other languages, including English. The work utilizes a multi-stage training process for retrieval models, incorporating large retrieval datasets, such as MS MARCO, and smaller, in-domain datasets to improve retrieval performance. Additionally, we have curated an in-domain retrieval dataset in English by employing data augmentation techniques and involving a reliable Islamic source. This approach enhances the domain-specific dataset for retrieval, leading to further performance gains. The findings suggest that combining domain adaptation and a multi-stage training method for the bilingual Islamic neural retrieval model enables it to outperform monolingual models on downstream retrieval tasks.
- Abstract(参考訳): 本研究では、イスラム領域における自然言語処理(NLP)技術の利用について検討し、イスラムニューラル検索モデルの開発に焦点をあてる。
頑健なXLM-Rモデルを活用することで、軽量なバイリンガル大言語モデル(LLM)を作成するために言語削減技術を採用する。
ドメイン適応に対する我々のアプローチは、イランのドメイン内コーパスがアラビア語でしか存在せず、英語を含む他の言語でのみ存在するという、イスラム領域で直面する特異な課題に対処する。
この作業は、MS MARCOのような大規模な検索データセットと、より小さなドメイン内のデータセットを組み込んで、検索性能を向上させるために、検索モデルに多段階のトレーニングプロセスを利用する。
さらに、我々は、データ拡張技術を採用し、信頼できるイスラム情報源を含む、ドメイン内検索データセットを英語でキュレートした。
このアプローチは、検索のためのドメイン固有のデータセットを強化し、さらなるパフォーマンス向上につながります。
その結果、ドメイン適応と二言語的イスラム神経検索モデルの多段階学習法を組み合わせることで、下流検索タスクにおける単言語モデルよりも優れていることが示唆された。
関連論文リスト
- Resource-Aware Arabic LLM Creation: Model Adaptation, Integration, and Multi-Domain Testing [0.0]
本稿では,4GB VRAMしか持たないシステム上で,量子化低ランク適応(QLoRA)を用いたアラビア語処理のためのQwen2-1.5Bモデルを微調整する新しい手法を提案する。
Bactrian、OpenAssistant、Wikipedia Arabic corporaなどの多様なデータセットを使用して、この大きな言語モデルをアラビア語領域に適応する過程を詳述する。
1万以上のトレーニングステップの実験結果は、最終的な損失が0.1083に収束するなど、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-23T13:08:48Z) - Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。
ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文 参考訳(メタデータ) (2024-11-09T11:37:18Z) - Leveraging Domain Adaptation and Data Augmentation to Improve Qur'anic
IR in English and Arabic [0.0]
トレーニングモデルには大量のデータが必要であり、ドメイン内でのトレーニングでは取得が困難である。
我々は、MRR@10とNDCG@5の測定結果を大幅に改善するデータ拡張手法を採用している。
英語のIRタスクのためのイスラムコーパスとドメイン固有のモデルが欠如していることは、このリソース不足に対処する動機となった。
論文 参考訳(メタデータ) (2023-12-05T14:44:08Z) - QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features [0.76146285961466]
ドメイン不変の特徴を学習するための敵対的学習手法について検討する。
EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
論文 参考訳(メタデータ) (2022-06-24T17:42:18Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。