論文の概要: Gazelle: An Instruction Dataset for Arabic Writing Assistance
- arxiv url: http://arxiv.org/abs/2410.18163v1
- Date: Wed, 23 Oct 2024 17:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:12.737120
- Title: Gazelle: An Instruction Dataset for Arabic Writing Assistance
- Title(参考訳): Gazelle:アラビア文字支援のためのインストラクションデータセット
- Authors: Samar M. Magdy, Fakhraddin Alwajih, Sang Yun Kwon, Reem Abdel-Salam, Muhammad Abdul-Mageed,
- Abstract要約: アラビア文字支援のための包括的なデータセットであるGazelleを提示する。
また、アラビア文字支援ツールの強化を目的とした評価フレームワークも提供する。
私たちの調査結果は、継続的モデルトレーニングとデータセットの強化の必要性を浮き彫りにしています。
- 参考スコア(独自算出の注目度): 12.798604366250261
- License:
- Abstract: Writing has long been considered a hallmark of human intelligence and remains a pinnacle task for artificial intelligence (AI) due to the intricate cognitive processes involved. Recently, rapid advancements in generative AI, particularly through the development of Large Language Models (LLMs), have significantly transformed the landscape of writing assistance. However, underrepresented languages like Arabic encounter significant challenges in the development of advanced AI writing tools, largely due to the limited availability of data. This scarcity constrains the training of effective models, impeding the creation of sophisticated writing assistance technologies. To address these issues, we present Gazelle, a comprehensive dataset for Arabic writing assistance. In addition, we offer an evaluation framework designed to enhance Arabic writing assistance tools. Our human evaluation of leading LLMs, including GPT-4, GPT-4o, Cohere Command R+, and Gemini 1.5 Pro, highlights their respective strengths and limitations in addressing the challenges of Arabic writing. Our findings underscore the need for continuous model training and dataset enrichment to manage the complexities of Arabic language processing, paving the way for more effective AI-powered Arabic writing tools.
- Abstract(参考訳): 筆記は長年、人間の知能の目印と考えられてきたが、複雑な認知過程のため、人工知能(AI)のピンナクル課題として残されている。
近年,特にLarge Language Models (LLMs) の開発を通じて,生成型AIの急速な進歩が,筆記支援の状況を大きく変えている。
しかし、アラビア語のような表現不足言語は、主にデータの可用性が限られているため、高度なAI記述ツールの開発において重大な課題に直面している。
この不足は効果的なモデルの訓練を妨げ、洗練された筆記支援技術の創出を妨げる。
これらの問題に対処するため、アラビア文字支援のための包括的なデータセットであるGazelleを提示する。
また,アラビア文字支援ツールの強化を目的とした評価フレームワークも提供する。
GPT-4, GPT-4o, Cohere Command R+, Gemini 1.5 Pro などのLLMの人間による評価は,アラビア文字の課題に対処する上でのそれぞれの強みと限界を強調している。
我々の発見は、アラビア語処理の複雑さを管理するために、継続的なモデルトレーニングとデータセットの強化の必要性を強調し、より効果的なAIを活用したアラビア文字作成ツールの道を開いた。
関連論文リスト
- HATFormer: Historic Handwritten Arabic Text Recognition with Transformers [6.3660090769559945]
アラビア文字のデータセットは英語に比べて小さく、一般化可能なアラビアHTRモデルを訓練することは困難である。
本稿では,HATFormerを提案する。HATFormerはトランスフォーマーをベースとしたエンコーダデコーダアーキテクチャで,最先端のHTRモデルに基づいている。
我々の研究は、複雑な言語固有の課題を持つ低リソース言語に英語のHTRメソッドを適用する可能性を示している。
論文 参考訳(メタデータ) (2024-10-03T03:43:29Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - Transformer Models in Education: Summarizing Science Textbooks with AraBART, MT5, AraT5, and mBART [4.214194481944042]
我々はアラビア語の教科書を対象とする高度なテキスト要約システムを開発した。
このシステムは、パレスチナのカリキュラムにおいて、11年生と12年生の生物学教科書で見られる最も重要な文章を評価し、抽出する。
論文 参考訳(メタデータ) (2024-06-11T20:14:09Z) - 101 Billion Arabic Words Dataset [0.0]
本研究の目的は、アラブ世界のデータ不足に対処し、アラビア語モデルの開発を促進することである。
我々は大規模なデータマイニングプロジェクトを行い、Common Crawl WETファイルから大量のテキストを抽出した。
抽出されたデータは、データセットの完全性とユニーク性を保証するために革新的な技術を用いて、厳密なクリーニングと重複処理が行われた。
論文 参考訳(メタデータ) (2024-04-29T13:15:03Z) - Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - A Survey on Arabic Named Entity Recognition: Past, Recent Advances, and
Future Trends [15.302538985992518]
我々はアラビア語 NER の発展に関する総合的なレビューを行う。
伝統的なアラビアのNERシステムは、機能工学とドメイン固有のルールの設計に重点を置いている。
事前訓練された言語モデルの成長に伴い、アラビア語のNERはより良いパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-02-07T14:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。