Fugu-MT 論文翻訳(概要): Leveraging Domain Adaptation and Data Augmentation to Improve Qur'anic IR in English and Arabic

論文の概要: Leveraging Domain Adaptation and Data Augmentation to Improve Qur'anic IR in English and Arabic

arxiv url: http://arxiv.org/abs/2312.02803v1
Date: Tue, 5 Dec 2023 14:44:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 15:18:05.002687
Title: Leveraging Domain Adaptation and Data Augmentation to Improve Qur'anic IR in English and Arabic
Title（参考訳）: 英語とアラビア語におけるQur'anic IR改善のためのドメイン適応とデータ拡張の活用
Authors: Vera Pavlova
Abstract要約: トレーニングモデルには大量のデータが必要であり、ドメイン内でのトレーニングでは取得が困難である。我々は、MRR@10とNDCG@5の測定結果を大幅に改善するデータ拡張手法を採用している。英語のIRタスクのためのイスラムコーパスとドメイン固有のモデルが欠如していることは、このリソース不足に対処する動機となった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we approach the problem of Qur'anic information retrieval (IR) in Arabic and English. Using the latest state-of-the-art methods in neural IR, we research what helps to tackle this task more efficiently. Training retrieval models requires a lot of data, which is difficult to obtain for training in-domain. Therefore, we commence with training on a large amount of general domain data and then continue training on in-domain data. To handle the lack of in-domain data, we employed a data augmentation technique, which considerably improved results in MRR@10 and NDCG@5 metrics, setting the state-of-the-art in Qur'anic IR for both English and Arabic. The absence of an Islamic corpus and domain-specific model for IR task in English motivated us to address this lack of resources and take preliminary steps of the Islamic corpus compilation and domain-specific language model (LM) pre-training, which helped to improve the performance of the retrieval models that use the domain-specific LM as the shared backbone. We examined several language models (LMs) in Arabic to select one that efficiently deals with the Qur'anic IR task. Besides transferring successful experiments from English to Arabic, we conducted additional experiments with retrieval task in Arabic to amortize the scarcity of general domain datasets used to train the retrieval models. Handling Qur'anic IR task combining English and Arabic allowed us to enhance the comparison and share valuable insights across models and languages.
Abstract（参考訳）: 本研究では,アラビア語と英語におけるQur'anic Information Search(IR)の問題にアプローチする。ニューラルIRにおける最新の最先端の手法を用いて、この課題にもっと効率的に取り組むために何が役立つかを研究する。トレーニングモデルには大量のデータが必要であり、ドメイン内でのトレーニングでは取得が困難である。そこで我々は,大量の汎用ドメインデータのトレーニングを開始し,その後,ドメイン内のデータのトレーニングを継続する。ドメイン内のデータ不足に対処するため、MRR@10とNDCG@5の測定結果を大幅に改善するデータ拡張手法を用い、英語とアラビア語の両方でクルアニックIRの最先端を設定した。英語におけるirタスクのためのイスラムコーパスとドメイン固有モデルがないことは、このリソースの欠如に対処し、イスラムコーパスコンパイルとドメイン固有言語モデル(lm)事前学習の予備ステップを取る動機となり、ドメイン固有lmを共有バックボーンとして使用する検索モデルのパフォーマンス向上に寄与した。アラビア語における複数の言語モデル(LM)について検討し、クルアニックIRタスクを効率的に扱う言語を選択した。英語からアラビア語へ成功した実験に加えて,検索モデルの学習に使用される一般ドメインデータセットの不足を償却するために,アラビア語における検索タスクに関する追加実験を行った。 Qur'anic IRタスクを英語とアラビア語を組み合わせて処理することで、比較を強化し、モデルや言語間で貴重な洞察を共有することができます。

関連論文リスト

Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-31T10:18:28Z)
Command R7B Arabic: A Small, Enterprise Focused, Multilingual, and Culturally Aware Arabic LLM [32.99591671206201]
エンタプライズアラビアアプリケーションのための高品質な大規模言語モデル(LLM)の構築は、デジタルアラビアデータの利用が限られているため、依然として困難である。本稿では, この問題を解決するために, 合成データ生成とヒューマン・イン・ザ・ループアノテーションを活用したデータ合成・改良戦略を提案する。この取り組みの成果は、小規模で7Bのオープンウェイトモデルのリリースであり、同様に、頭と頭の比較やアラビアのベンチマークにおいて、同等の大きさのピアを上回っている。
論文参考訳（メタデータ） (2025-03-18T18:03:49Z)
Multi-stage Training of Bilingual Islamic LLM for Neural Passage Retrieval [0.0]
この研究は、軽量なバイリンガル大言語モデル(LLM)を作成するために、言語削減技術を用いている。ドメイン適応に対する我々のアプローチは、イランの領域内コーパスがアラビア語でのみ存在するイスラム領域で直面する固有の課題に対処する。その結果、ドメイン適応と二言語的イスラム神経検索モデルの多段階学習法を組み合わせることで、下流検索タスクにおける単言語モデルよりも優れていることが示唆された。
論文参考訳（メタデータ） (2025-01-17T13:17:42Z)
Resource-Aware Arabic LLM Creation: Model Adaptation, Integration, and Multi-Domain Testing [0.0]
本稿では,4GB VRAMしか持たないシステム上で,量子化低ランク適応(QLoRA)を用いたアラビア語処理のためのQwen2-1.5Bモデルを微調整する新しい手法を提案する。 Bactrian、OpenAssistant、Wikipedia Arabic corporaなどの多様なデータセットを使用して、この大きな言語モデルをアラビア語領域に適応する過程を詳述する。 1万以上のトレーニングステップの実験結果は、最終的な損失が0.1083に収束するなど、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-12-23T13:08:48Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文参考訳（メタデータ） (2024-11-09T11:37:18Z)
Exploring Retrieval Augmented Generation in Arabic [0.0]
Retrieval Augmented Generation (RAG) は自然言語処理において強力な技術である。本稿ではアラビア文字に対するRAGの実装と評価について事例研究を行う。
論文参考訳（メタデータ） (2024-08-14T10:03:28Z)
Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。 2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文参考訳（メタデータ） (2024-07-13T21:09:38Z)
GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文参考訳（メタデータ） (2024-07-02T10:43:49Z)
On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文参考訳（メタデータ） (2024-01-15T15:11:15Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Improving Natural Language Inference in Arabic using Transformer Models and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。この制限を克服するため、公開リソースから専用のデータセットを作成します。言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文参考訳（メタデータ） (2023-07-27T07:40:11Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
Language Agnostic Multilingual Information Retrieval with Contrastive Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。我々のモデルは少数のパラレル文でもうまく機能する。
論文参考訳（メタデータ） (2022-10-12T23:53:50Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。