論文の概要: Tahakom LLM guidelines and receipts: from pre-training data to an Arabic LLM
- arxiv url: http://arxiv.org/abs/2510.13481v1
- Date: Wed, 15 Oct 2025 12:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.665524
- Title: Tahakom LLM guidelines and receipts: from pre-training data to an Arabic LLM
- Title(参考訳): Tahakom LLMガイドラインとレシート:事前学習データからアラビア語LLMへ
- Authors: Areej AlOtaibi, Lina Alyahya, Raghad Alshabanah, Shahad Alfawzan, Shuruq Alarefei, Reem Alsabti, Nouf Alsubaie, Abdulaziz Alhuzaymi, Lujain Alkhelb, Majd Alsayari, Waad Alahmed, Omar Talabay, Jalal Alowibdi, Salem Alelyani, Adel Bibi,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
しかし、アラビア語用LLMの開発には固有の課題がある。
本稿では,データキュレーション,トークン化設計,評価などの重要な側面に注目し,これらの課題について考察する。
- 参考スコア(独自算出の注目度): 13.961748369867777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have significantly advanced the field of natural language processing, enhancing capabilities in both language understanding and generation across diverse domains. However, developing LLMs for Arabic presents unique challenges. This paper explores these challenges by focusing on critical aspects such as data curation, tokenizer design, and evaluation. We detail our approach to the collection and filtration of Arabic pre-training datasets, assess the impact of various tokenizer designs on model performance, and examine the limitations of existing Arabic evaluation frameworks, for which we propose a systematic corrective methodology. To promote transparency and facilitate collaborative development, we share our data and methodologies, contributing to the advancement of language modeling, particularly for the Arabic language.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理の分野を著しく進歩させ、言語理解と様々な領域にわたる生成の能力を強化してきた。
しかし、アラビア語用LLMの開発には固有の課題がある。
本稿では,データキュレーション,トークン化設計,評価などの重要な側面に注目し,これらの課題について考察する。
我々は,アラビア事前学習データセットの収集とフィルタリングへのアプローチを詳述し,各種トークン化設計がモデル性能に与える影響を評価し,既存のアラビア評価フレームワークの限界を検証し,体系的な補正手法を提案する。
透明性を促進し,共同開発を促進するため,我々はデータと方法論を共有し,特にアラビア語における言語モデリングの進歩に寄与する。
関連論文リスト
- Mind the Gap: A Review of Arabic Post-Training Datasets and Their Limitations [3.4379069363635626]
本稿では,Hugging Face Hub上でのアラビア語学習後のデータセットについて概説する。
各データセットは、人気、実践的採用、信頼性とメンテナンス、ドキュメンテーションとアノテーションの品質、ライセンスの透明性、科学的貢献に基づいて厳格に評価されている。
論文 参考訳(メタデータ) (2025-07-19T16:30:45Z) - Jawaher: A Multidialectal Dataset of Arabic Proverbs for LLM Benchmarking [12.078532717928185]
大型言語モデル(LLM)は、西洋文化、アングロ・セントリック文化、アメリカ文化への偏見を示し続けている。
我々は、アラビア語の証明を理解し解釈するLLMの能力を評価するために設計されたベンチマークであるJawaherを紹介する。
LLMは慣用的に正確な翻訳を生成できるが、文化的にニュアンスで文脈的に関係のある説明を生み出すのに苦労している。
論文 参考訳(メタデータ) (2025-02-28T22:28:00Z) - How well can LLMs Grade Essays in Arabic? [3.101490720236325]
本研究では,AR-AESデータセットを用いたアラビア語自動エッセイスコアリング(AES)タスクにおける大規模言語モデル(LLM)の有効性を評価する。
ゼロショット、少数ショットのインコンテキスト学習、微調整など、さまざまな評価手法を探求する。
英語のプロンプトとアラビア語のコンテンツを統合する混合言語プロンプト戦略は、モデル理解とパフォーマンスを改善するために実装された。
論文 参考訳(メタデータ) (2025-01-27T21:30:02Z) - ArabLegalEval: A Multitask Benchmark for Assessing Arabic Legal Knowledge in Large Language Models [0.0]
ArabLegalEvalは、大規模言語モデル(LLM)のアラビア語法的知識を評価するためのベンチマークデータセットである。
MMLUとLegalBenchのデータセットにインスパイアされたArabLegalEvalは、サウジアラビアの法的文書から得られた複数のタスクと、質問を合成する。
本研究の目的は、アラビア語の法的な問題を解くために必要な能力を分析し、最先端のLLMの性能をベンチマークすることである。
論文 参考訳(メタデータ) (2024-08-15T07:09:51Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - History, Development, and Principles of Large Language Models-An Introductory Survey [15.875687167037206]
自然言語処理(NLP)の基盤となる言語モデル
数十年にわたる広範な研究を経て、言語モデリングは、初期統計言語モデル(SLM)から、大規模言語モデル(LLM)の現代的景観へと進歩してきた。
論文 参考訳(メタデータ) (2024-02-10T01:18:15Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。