論文の概要: Large Language Models and Arabic Content: A Review
- arxiv url: http://arxiv.org/abs/2505.08004v1
- Date: Mon, 12 May 2025 19:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.31187
- Title: Large Language Models and Arabic Content: A Review
- Title(参考訳): 大規模言語モデルとアラビアコンテンツ: レビュー
- Authors: Haneh Rhel, Dmitri Roussinov,
- Abstract要約: 本研究は,アラビア語に対する大規模言語モデル (LLM) の利用について概説する。
様々なNLPアプリケーションにまたがる、初期の訓練済みのアラビア語モデルを強調している。
また、ファインチューニングやプロンプトエンジニアリングのような技術がこれらのモデルの性能を高める方法の概要も提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past three years, the rapid advancement of Large Language Models (LLMs) has had a profound impact on multiple areas of Artificial Intelligence (AI), particularly in Natural Language Processing (NLP) across diverse languages, including Arabic. Although Arabic is considered one of the most widely spoken languages across 27 countries in the Arabic world and used as a second language in some other non-Arabic countries as well, there is still a scarcity of Arabic resources, datasets, and tools. Arabic NLP tasks face various challenges due to the complexities of the Arabic language, including its rich morphology, intricate structure, and diverse writing standards, among other factors. Researchers have been actively addressing these challenges, demonstrating that pre-trained Large Language Models (LLMs) trained on multilingual corpora achieve significant success in various Arabic NLP tasks. This study provides an overview of using large language models (LLMs) for the Arabic language, highlighting early pre-trained Arabic Language models across various NLP applications and their ability to handle diverse Arabic content tasks and dialects. It also provides an overview of how techniques like finetuning and prompt engineering can enhance the performance of these models. Additionally, the study summarizes common Arabic benchmarks and datasets while presenting our observations on the persistent upward trend in the adoption of LLMs.
- Abstract(参考訳): 過去3年間で、大規模言語モデル(LLM)の急速な進歩は、人工知能(AI)の分野、特にアラビア語を含む多言語にわたる自然言語処理(NLP)に大きな影響を与えた。
アラビア語は、アラブ世界の27カ国でもっとも広く話されている言語の一つと考えられており、他のアラビア語以外の国でも第二言語として使われているが、アラビア語の資源、データセット、ツールが不足している。
アラビア語のNLPタスクは、その豊富な形態、複雑な構造、様々な書記基準など、アラビア語の複雑さのために様々な課題に直面している。
研究者はこれらの課題に積極的に取り組んでおり、多言語コーパスで訓練された事前訓練されたLarge Language Models (LLMs)が様々なアラビアNLPタスクで大きな成功を収めていることを実証している。
本研究は、様々なNLPアプリケーションにまたがる早期に訓練されたアラビア語モデルと、多様なアラビアコンテンツタスクや方言を扱う能力を強調し、アラビア語言語に対する大きな言語モデル(LLM)の使用の概要を提供する。
また、ファインチューニングやプロンプトエンジニアリングのような技術がこれらのモデルの性能を高める方法の概要も提供する。
さらに、この研究は一般的なアラビアのベンチマークとデータセットを要約し、LLMの採用における持続的な上昇傾向に関する観察結果を示した。
関連論文リスト
- AIN: The Arabic INclusive Large Multimodal Model [71.29419186696138]
AIN (英語: AIN) は、英語とアラビア語で卓越するように設計された英語とアラビア語のバイリンガルLMMである。
AINは最先端のアラビア語のパフォーマンスを実証する一方で、英語の視覚能力も優れている。
AINの優れた能力は、先進的なマルチモーダル生成AIツールでアラビア語話者を強化するための重要なステップである。
論文 参考訳(メタデータ) (2025-01-31T18:58:20Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic [14.453861745003865]
我々は、LLaMA-2に基づく先進言語モデルを用いて、多モーダルインタラクションを容易にする、効率の良いアラビア多モーダルアシスタント、Dallahを導入する。
Dallah氏はアラビア語のMLLMで最先端のパフォーマンスを示し、2つのベンチマークテストで優れています。
ダッラーは、方言を意識したアラビア語のMLLMのさらなる発展の道を開く可能性がある。
論文 参考訳(メタデータ) (2024-07-25T15:36:48Z) - 101 Billion Arabic Words Dataset [0.0]
本研究の目的は、アラブ世界のデータ不足に対処し、アラビア語モデルの開発を促進することである。
我々は大規模なデータマイニングプロジェクトを行い、Common Crawl WETファイルから大量のテキストを抽出した。
抽出されたデータは、データセットの完全性とユニーク性を保証するために革新的な技術を用いて、厳密なクリーニングと重複処理が行われた。
論文 参考訳(メタデータ) (2024-04-29T13:15:03Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - A Panoramic Survey of Natural Language Processing in the Arab World [12.064637486695485]
自然言語(英: natural language)とは、意図的な人間の計画や設計を伴わない、象徴的なコミュニケーション(書面、署名、書面)のシステムを指す用語である。
自然言語処理(NLP)は、音声認識や合成、機械翻訳、光学文字認識(OCR)、感情分析(SA)、質問応答、対話システムなどの応用を構築するために自然言語をモデル化することに焦点を当てた人工知能(AI)のサブフィールドである。
論文 参考訳(メタデータ) (2020-11-25T10:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。