論文の概要: TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy
Qur'an Using a Post-Processed Ensemble of BERT-based Models
- arxiv url: http://arxiv.org/abs/2206.01550v1
- Date: Fri, 3 Jun 2022 13:00:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 19:34:23.000974
- Title: TCE at Qur'an QA 2022: Arabic Language Question Answering Over Holy
Qur'an Using a Post-Processed Ensemble of BERT-based Models
- Title(参考訳): tce at qur'an qa 2022: アラビア語のqur'anに対する質問に答える。
- Authors: Mohammed ElKomy, Amany M. Sarhan
- Abstract要約: アラビア語は神聖なクルアーンの言語であり、世界中の18億人の人々の神聖なテキストである。
本稿では,BERTモデルのアラビア変種に基づくアンサンブル学習モデルを提案する。
本システムでは,公式テストセットでPRR(Partial Reciprocal Rank)スコアが56.6%に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, we witnessed great progress in different tasks of natural
language understanding using machine learning. Question answering is one of
these tasks which is used by search engines and social media platforms for
improved user experience. Arabic is the language of the Holy Qur'an; the sacred
text for 1.8 billion people across the world. Arabic is a challenging language
for Natural Language Processing (NLP) due to its complex structures. In this
article, we describe our attempts at OSACT5 Qur'an QA 2022 Shared Task, which
is a question answering challenge on the Holy Qur'an in Arabic. We propose an
ensemble learning model based on Arabic variants of BERT models. In addition,
we perform post-processing to enhance the model predictions. Our system
achieves a Partial Reciprocal Rank (pRR) score of 56.6% on the official test
set.
- Abstract(参考訳): 近年,機械学習を用いた自然言語理解のタスクにおいて,大きな進歩が見られた。
質問応答は、検索エンジンやソーシャルメディアプラットフォームがユーザエクスペリエンスを改善するために使用しているタスクの1つです。
アラビア語は、世界中の18億人の人々の神聖なテキストである聖クルアーンの言語である。
アラビア語は複雑な構造のため、自然言語処理(NLP)にとって困難な言語である。
本稿では,OACT5 QA 2022共有課題の試行について述べる。
本稿では,BERTモデルのアラビア変種に基づくアンサンブル学習モデルを提案する。
さらに,モデル予測を強化するために後処理を行う。
本システムでは,公式テストセットでPRR(Partial Reciprocal Rank)スコアが56.6%に達する。
関連論文リスト
- ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [53.1913348687902]
アラビア語に対する最初のマルチタスク言語理解ベンチマークであるアラビアMMLUを提示する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575の多重選択質問からなる。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [74.47331062873107]
本稿では,アラビア語を対象とする局所的大規模言語モデル(LLM)の開発に着目する。
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答などを含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - ORCA: A Challenging Benchmark for Arabic Language Understanding [8.9379057739817]
ORCAはアラビア語理解評価のための公開ベンチマークである。
アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
論文 参考訳(メタデータ) (2022-12-21T04:35:43Z) - CS-UM6P at SemEval-2022 Task 6: Transformer-based Models for Intended
Sarcasm Detection in English and Arabic [6.221019624345408]
サルカズム(Sarcasm)は、文の意図する意味が文字通りの意味と異なる、図形言語の一種である。
本稿では,英語およびアラビア語におけるサルカズム検出タスクへの参加システムについて述べる。
論文 参考訳(メタデータ) (2022-06-16T19:14:54Z) - Harnessing Multilingual Resources to Question Answering in Arabic [0.7233897166339269]
この論文の目標は、クルアン語を通した質問に対する回答を予測することである。
解答は常に文中で見つかるので、モデルのタスクは、どの解答がどこから始まり、どこで終わるかを予測することである。
我々は多言語BERTを利用して、アラビア語以外の言語で利用可能なデータを利用することで、トレーニングデータを拡張しています。
論文 参考訳(メタデータ) (2022-05-16T23:28:01Z) - DTW at Qur'an QA 2022: Utilising Transfer Learning with Transformers for
Question Answering in a Low-resource Domain [10.172732008860539]
機械読解に関する研究は、宗教文書を含むいくつかの領域で研究されている。
QA 2022の共通課題の目標は、このギャップを埋めることである。
論文 参考訳(メタデータ) (2022-05-12T11:17:23Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - Cross-Lingual GenQA: A Language-Agnostic Generative Question Answering
Approach for Open-Domain Question Answering [76.99585451345702]
オープン検索生成質問回答(GenQA)は、高品質で自然な回答を英語で提供することが証明されている。
我々は多言語環境に対するGenQAアプローチの最初の一般化について述べる。
論文 参考訳(メタデータ) (2021-10-14T04:36:29Z) - Arabic Dialect Identification Using BERT-Based Domain Adaptation [0.0]
アラビア語は世界で最も重要で成長している言語の一つです
Twitterなどのソーシャルメディアプラットフォームが台頭すると、アラビア語の方言がより使われるようになった。
論文 参考訳(メタデータ) (2020-11-13T15:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。