Fugu-MT 論文翻訳(概要): ALLaM: Large Language Models for Arabic and English

論文の概要: ALLaM: Large Language Models for Arabic and English

arxiv url: http://arxiv.org/abs/2407.15390v1
Date: Mon, 22 Jul 2024 05:35:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 16:00:55.301888
Title: ALLaM: Large Language Models for Arabic and English
Title（参考訳）: ALLaM:アラビア語と英語の大規模言語モデル
Authors: M Saiful Bari, Yazeed Alnumay, Norah A. Alzahrani, Nouf M. Alotaibi, Hisham A. Alyahya, Sultan AlRashed, Faisal A. Mirza, Shaykhah Z. Alsubaie, Hassan A. Alahmed, Ghadah Alabduljabbar, Raghad Alkhathran, Yousef Almushayqih, Raneem Alnajim, Salman Alsubaihi, Maryam Al Mansour, Majed Alrubaian, Ali Alammari, Zaki Alawami, Abdulmohsen Al-Thubaity, Ahmed Abdelali, Jeril Kuriakose, Abdalghani Abujabal, Nora Al-Twairesh, Areeb Alowisheq, Haidar Khan,
Abstract要約: アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
参考スコア（独自算出の注目度）: 9.881560166505452
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present ALLaM: Arabic Large Language Model, a series of large language models to support the ecosystem of Arabic Language Technologies (ALT). ALLaM is carefully trained considering the values of language alignment and knowledge transfer at scale. Our autoregressive decoder-only architecture models demonstrate how second-language acquisition via vocabulary expansion and pretraining on a mixture of Arabic and English text can steer a model towards a new language (Arabic) without any catastrophic forgetting in the original language (English). Furthermore, we highlight the effectiveness of using parallel/translated data to aid the process of knowledge alignment between languages. Finally, we show that extensive alignment with human preferences can significantly enhance the performance of a language model compared to models of a larger scale with lower quality alignment. ALLaM achieves state-of-the-art performance in various Arabic benchmarks, including MMLU Arabic, ACVA, and Arabic Exams. Our aligned models improve both in Arabic and English from their base aligned models.
Abstract（参考訳）: 本稿では,アラビア語技術 (ALT) のエコシステムを支える,大規模言語モデルのシリーズである Arabic Large Language Model を紹介する。 ALLaMは、言語アライメントと大規模知識伝達の値を考慮して、慎重に訓練されている。我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張による第二言語習得と、アラビア語と英語のテキストの混合による事前訓練が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。さらに,言語間の知識アライメントのプロセスを支援するために,並列/翻訳データの有用性を強調した。最後に,人間の嗜好に対する広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を大幅に向上させることができることを示す。 ALLaMは、MMLUアラビア、ACVA、アラビアエグザムを含む様々なアラビアのベンチマークで最先端のパフォーマンスを達成する。私たちのアライメントモデルは、ベースアライメントモデルからアラビア語と英語の両方で改善します。

関連論文リスト

Kuwain 1.5B: An Arabic SLM via Language Injection [0.0]
本稿では,新しい言語を大規模言語モデル(LLM)に統合する新しい手法を提案する。我々は、アラビア語を主に英語で訓練された小さなオープンソースモデルに注入することで、クワインという名前の15億のパラメータを持つ小さなモデルを訓練した。提案手法はアラビア語の性能が向上し,様々なベンチマークで平均8%の改善が見られた。
論文参考訳（メタデータ） (2025-04-21T14:17:25Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks [17.5987429821102]
スワン(Swan)は、アラビア語を中心にした埋め込みモデルのファミリーである。 2つの変種: Swan-SmallはArBERTv2をベースとしており、Swan-Largeはアラビア語で事前訓練された大言語モデルであるArMistralをベースとしている。
論文参考訳（メタデータ） (2024-11-02T09:39:49Z)
AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。 AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文参考訳（メタデータ） (2024-07-18T02:13:50Z)
Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。 2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文参考訳（メタデータ） (2024-07-13T21:09:38Z)
GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文参考訳（メタデータ） (2024-07-02T10:43:49Z)
Training a Bilingual Language Model by Mapping Tokens onto a Shared Character Space [2.9914612342004503]
我々は、ヘブライ語でアラビア文字の翻訳版を用いてバイリンガルアラビア語・ヘブライ語モデルを訓練する。両言語に統一的なスクリプトを用いた言語モデルの性能を機械翻訳を用いて評価する。
論文参考訳（メタデータ） (2024-02-25T11:26:39Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文参考訳（メタデータ） (2024-01-15T15:11:15Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文参考訳（メタデータ） (2023-08-30T17:07:17Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。