論文の概要: Mind the Gap: A Review of Arabic Post-Training Datasets and Their Limitations
- arxiv url: http://arxiv.org/abs/2507.14688v1
- Date: Sat, 19 Jul 2025 16:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.005517
- Title: Mind the Gap: A Review of Arabic Post-Training Datasets and Their Limitations
- Title(参考訳): Mind the Gap:アラビア語のポストトレーニングデータセットとその制限
- Authors: Mohammed Alkhowaiter, Norah Alshahrani, Saied Alshahrani, Reem I. Masoud, Alaa Alzahrani, Deema Alnuhait, Emad A. Alghamdi, Khalid Almubarak,
- Abstract要約: 本稿では,Hugging Face Hub上でのアラビア語学習後のデータセットについて概説する。
各データセットは、人気、実践的採用、信頼性とメンテナンス、ドキュメンテーションとアノテーションの品質、ライセンスの透明性、科学的貢献に基づいて厳格に評価されている。
私たちのレビューでは、タスクの多様性の制限、ドキュメントやアノテーションの欠如、コミュニティ全体の採用率の低下など、アラビアのポストトレーニングデータセットの開発において重要なギャップが明らかになった。
- 参考スコア(独自算出の注目度): 1.7024766422914548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training has emerged as a crucial technique for aligning pre-trained Large Language Models (LLMs) with human instructions, significantly enhancing their performance across a wide range of tasks. Central to this process is the quality and diversity of post-training datasets. This paper presents a review of publicly available Arabic post-training datasets on the Hugging Face Hub, organized along four key dimensions: (1) LLM Capabilities (e.g., Question Answering, Translation, Reasoning, Summarization, Dialogue, Code Generation, and Function Calling); (2) Steerability (e.g., persona and system prompts); (3) Alignment (e.g., cultural, safety, ethics, and fairness), and (4) Robustness. Each dataset is rigorously evaluated based on popularity, practical adoption, recency and maintenance, documentation and annotation quality, licensing transparency, and scientific contribution. Our review revealed critical gaps in the development of Arabic post-training datasets, including limited task diversity, inconsistent or missing documentation and annotation, and low adoption across the community. Finally, the paper discusses the implications of these gaps on the progress of Arabic LLMs and applications while providing concrete recommendations for future efforts in post-training dataset development.
- Abstract(参考訳): ポストトレーニングは、事前訓練された大規模言語モデル(LLM)を人間の指示と整合させる重要な手法として現れ、幅広いタスクでその性能を著しく向上させてきた。
このプロセスの中心は、トレーニング後のデータセットの品質と多様性である。
本稿では,(1)LLM能力(eg,質問回答,翻訳,推論,要約,ダイアログ,コード生成,関数呼び出し),(2)ステアビリティ(eg,ペルソナ,システムプロンプト),(3)アライメント(eg,文化,安全,倫理,公正),(4)ロバストネス(ロバストネス)の4つの重要な側面に沿って編成された,Hugging Face Hub上で公開されているアラビアのポストトレーニングデータセットをレビューする。
各データセットは、人気、実践的採用、信頼性とメンテナンス、ドキュメンテーションとアノテーションの品質、ライセンスの透明性、科学的貢献に基づいて厳格に評価されている。
私たちのレビューでは、タスクの多様性の制限、ドキュメントやアノテーションの欠如、コミュニティ全体の採用率の低下など、アラビアのポストトレーニングデータセットの開発において重要なギャップが明らかになった。
最後に,これらのギャップがアラビア語のLLMや応用の進展に与える影響について考察するとともに,今後の学習データセット開発への具体的な取り組みについて提案する。
関連論文リスト
- Data Quality Issues in Multilingual Speech Datasets: The Need for Sociolinguistic Awareness and Proactive Language Planning [5.730241441689874]
一部の言語では、データセットは重要な品質問題に悩まされ、下流の評価結果を難なくする可能性がある。
マクロレベルの問題は、制度化されていない、しばしばリソース不足の言語でより一般的であることが分かりました。
今後のデータセット開発においてこれらの問題を緩和するためのガイドラインと勧告を提案する。
論文 参考訳(メタデータ) (2025-06-21T00:34:18Z) - SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2091341579150698]
低リソース言語10言語にまたがる多文語を含む文のデータセットをリリースする。
データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。
その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-29T17:48:08Z) - Instruction Tuning on Public Government and Cultural Data for Low-Resource Language: a Case Study in Kazakh [29.813758537374795]
カザフスタンの主要な制度的・文化的知識をカバーする大規模な(10,600サンプル)命令追従データセットを導入,オープンソース化する。
データセット構築のためのオープンウェイトモデルとクローズドウェイトモデルを比較し,GPT-4oをバックボーンとして選択する。
データセット上の微調整Qwen、Falcon、Gemmaは、複数の選択タスクと生成タスクの両方において、一貫したパフォーマンス改善をもたらします。
論文 参考訳(メタデータ) (2025-02-19T11:44:27Z) - Matina: A Large-Scale 73B Token Persian Text Corpus [1.396406461086233]
既存のペルシアのデータセットは通常小さく、内容の多様性に欠けており、主にウェブログとニュース記事で構成されている。
Matina corpusは72.9Bトークンからなる新しいペルシアのデータセットで、高いデータ品質を確保するために慎重に前処理され、重複している。
論文 参考訳(メタデータ) (2025-02-13T11:22:19Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - ArabLegalEval: A Multitask Benchmark for Assessing Arabic Legal Knowledge in Large Language Models [0.0]
ArabLegalEvalは、大規模言語モデル(LLM)のアラビア語法的知識を評価するためのベンチマークデータセットである。
MMLUとLegalBenchのデータセットにインスパイアされたArabLegalEvalは、サウジアラビアの法的文書から得られた複数のタスクと、質問を合成する。
本研究の目的は、アラビア語の法的な問題を解くために必要な能力を分析し、最先端のLLMの性能をベンチマークすることである。
論文 参考訳(メタデータ) (2024-08-15T07:09:51Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - ThatiAR: Subjectivity Detection in Arabic News Sentences [10.334164786614696]
本研究では,アラビア語における主観性検出のための最初の大規模データセットを提案する。
3.6K の注釈付き文と GPT-4o に基づく説明で構成されている。
データセット、アノテーションプロセス、および広範なベンチマーク結果を詳細に分析する。
論文 参考訳(メタデータ) (2024-06-08T19:24:17Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。