Fugu-MT 論文翻訳(概要): TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy Qur'an Using a Post-Processed Ensemble of BERT-based Models

論文の概要: TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy Qur'an Using a Post-Processed Ensemble of BERT-based Models

arxiv url: http://arxiv.org/abs/2206.01550v1
Date: Fri, 3 Jun 2022 13:00:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-06 19:34:23.000974
Title: TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy Qur'an Using a Post-Processed Ensemble of BERT-based Models
Title（参考訳）: tce at qur'an qa 2022: アラビア語のqur'anに対する質問に答える。
Authors: Mohammed ElKomy, Amany M. Sarhan
Abstract要約: アラビア語は神聖なクルアーンの言語であり、世界中の18億人の人々の神聖なテキストである。本稿では,BERTモデルのアラビア変種に基づくアンサンブル学習モデルを提案する。本システムでは,公式テストセットでPRR(Partial Reciprocal Rank)スコアが56.6%に達する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, we witnessed great progress in different tasks of natural language understanding using machine learning. Question answering is one of these tasks which is used by search engines and social media platforms for improved user experience. Arabic is the language of the Holy Qur'an; the sacred text for 1.8 billion people across the world. Arabic is a challenging language for Natural Language Processing (NLP) due to its complex structures. In this article, we describe our attempts at OSACT5 Qur'an QA 2022 Shared Task, which is a question answering challenge on the Holy Qur'an in Arabic. We propose an ensemble learning model based on Arabic variants of BERT models. In addition, we perform post-processing to enhance the model predictions. Our system achieves a Partial Reciprocal Rank (pRR) score of 56.6% on the official test set.
Abstract（参考訳）: 近年,機械学習を用いた自然言語理解のタスクにおいて,大きな進歩が見られた。質問応答は、検索エンジンやソーシャルメディアプラットフォームがユーザエクスペリエンスを改善するために使用しているタスクの1つです。アラビア語は、世界中の18億人の人々の神聖なテキストである聖クルアーンの言語である。アラビア語は複雑な構造のため、自然言語処理(NLP)にとって困難な言語である。本稿では,OACT5 QA 2022共有課題の試行について述べる。本稿では,BERTモデルのアラビア変種に基づくアンサンブル学習モデルを提案する。さらに,モデル予測を強化するために後処理を行う。本システムでは,公式テストセットでPRR(Partial Reciprocal Rank)スコアが56.6%に達する。

関連論文リスト

Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-31T10:18:28Z)
Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin? [0.4751886527142778]
アラビジはラテン文字と数字を含むアラビア語のハイブリッド形である。機械翻訳には形式的な構造が欠如しているため、大きな課題がある。本研究は、アラビジ語を現代標準アラビア語と英語の両方に翻訳する際のモデルの性能について検討する。
論文参考訳（メタデータ） (2025-02-28T11:37:52Z)
Cross-Language Approach for Quranic QA [1.0124625066746595]
クルアーンのQAシステムは、世界中の10億人以上の人々のための神聖なテキストであるクルアーンの深い理解を促進するため、重要な重要性を保っている。これらのシステムは、現代標準アラビア語で書かれた質問と、古典アラビア語で書かれたクラーン語の詩で見つかった回答の言語的相違など、固有の課題に直面している。我々は、機械翻訳を通じてデータセットを拡張して強化し、アラビア語の質問を英語に翻訳し、アラビア語の質問を言い換えて言語的多様性を創出し、クァラン語の英訳から回答を抽出し、多言語学習要件に適合させることにより、クロスランゲージのアプローチを採用する。
論文参考訳（メタデータ） (2025-01-29T07:13:27Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。 2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文参考訳（メタデータ） (2024-07-13T21:09:38Z)
Quranic Audio Dataset: Crowdsourced and Labeled Recitation from Non-Arabic Speakers [1.2124551005857038]
本稿では、アラビア語以外の話者に対して、クアン語を引用する学習の課題について論じる。我々はボランティアベースのクラウドソーシングのジャンルを用いて、オーディオ資産を集めるためにクラウドソーシングAPIを実装している。我々は、11カ国以上にわたる1287人の参加者のプールから、約7000人のクラーニックのリサイクリングを収集しました。
論文参考訳（メタデータ） (2024-05-04T14:29:05Z)
Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文参考訳（メタデータ） (2024-03-26T16:37:54Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文参考訳（メタデータ） (2023-08-30T17:07:17Z)
Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文参考訳（メタデータ） (2023-01-26T20:37:03Z)
ORCA: A Challenging Benchmark for Arabic Language Understanding [8.9379057739817]
ORCAはアラビア語理解評価のための公開ベンチマークである。アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
論文参考訳（メタデータ） (2022-12-21T04:35:43Z)
Harnessing Multilingual Resources to Question Answering in Arabic [0.7233897166339269]
この論文の目標は、クルアン語を通した質問に対する回答を予測することである。解答は常に文中で見つかるので、モデルのタスクは、どの解答がどこから始まり、どこで終わるかを予測することである。我々は多言語BERTを利用して、アラビア語以外の言語で利用可能なデータを利用することで、トレーニングデータを拡張しています。
論文参考訳（メタデータ） (2022-05-16T23:28:01Z)
DTW at Qur'an QA 2022: Utilising Transfer Learning with Transformers for Question Answering in a Low-resource Domain [10.172732008860539]
機械読解に関する研究は、宗教文書を含むいくつかの領域で研究されている。 QA 2022の共通課題の目標は、このギャップを埋めることである。
論文参考訳（メタデータ） (2022-05-12T11:17:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。