Fugu-MT 論文翻訳(概要): Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks

論文の概要: Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks

arxiv url: http://arxiv.org/abs/2411.01192v1
Date: Sat, 02 Nov 2024 09:39:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.649086
Title: Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks
Title（参考訳）: Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks
Authors: Gagan Bhatia, El Moatez Billah Nagoudi, Abdellah El Mekki, Fakhraddin Alwajih, Muhammad Abdul-Mageed,
Abstract要約: スワン(Swan)は、アラビア語を中心にした埋め込みモデルのファミリーである。 2つの変種: Swan-SmallはArBERTv2をベースとしており、Swan-Largeはアラビア語で事前訓練された大言語モデルであるArMistralをベースとしている。
参考スコア（独自算出の注目度）: 17.5987429821102
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce Swan, a family of embedding models centred around the Arabic language, addressing both small-scale and large-scale use cases. Swan includes two variants: Swan-Small, based on ARBERTv2, and Swan-Large, built on ArMistral, a pretrained Arabic large language model. To evaluate these models, we propose ArabicMTEB, a comprehensive benchmark suite that assesses cross-lingual, multi-dialectal, multi-domain, and multi-cultural Arabic text embedding performance, covering eight diverse tasks and spanning 94 datasets. Swan-Large achieves state-of-the-art results, outperforming Multilingual-E5-large in most Arabic tasks, while the Swan-Small consistently surpasses Multilingual-E5 base. Our extensive evaluations demonstrate that Swan models are both dialectally and culturally aware, excelling across various Arabic domains while offering significant monetary efficiency. This work significantly advances the field of Arabic language modelling and provides valuable resources for future research and applications in Arabic natural language processing. Our models and benchmark will be made publicly accessible for research.
Abstract（参考訳）: 我々は、アラビア語を中心とした埋め込みモデルのファミリーであるSwanを紹介し、小規模と大規模の両方のユースケースに対処する。 Swan-SmallはArBERTv2をベースにしており、Swan-LargeはArMistralをベースとしている。これらのモデルを評価するため,多言語,多言語,多ドメイン,多文化のアラビア文字の埋め込み性能を評価し,8つのタスクをカバーし,94のデータセットにまたがる総合ベンチマークスイートであるアラビアMTEBを提案する。 Swan-Largeは、ほとんどのアラビア語タスクにおいてMultilingual-E5よりも優れており、Swan-SmallはMultilingual-E5ベースを一貫して上回っている。我々の広範な評価は、スワンのモデルは方言と文化的に認識され、様々なアラビアの領域で優れており、重要な金融効率を提供していることを示している。この研究はアラビア語のモデリング分野を著しく進歩させ、アラビア語の自然言語処理における将来の研究や応用に貴重な資源を提供する。私たちのモデルとベンチマークは、研究のために公開されます。

関連論文リスト

Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP: Fidelity, Diglossia, and Multidialectal Generation [1.817669530501506]
アラビア語の方言は、自然言語処理 (NLP) 研究において、長い間あまり表現されていない。 LLM(Large Language Models)のようなこの分野の最近の進歩は、このギャップに対処するための有望な道を提供する。本稿では,AMIYA共有タスクへの提案であるAladdin-FTIについて述べる。
論文参考訳（メタデータ） (2026-02-18T09:15:20Z)
Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale [51.41777906371754]
私たちはHalaを紹介します。これはアラビア語中心の命令と翻訳モデルのファミリーで、私たちのトランスレーショナル・トゥン・パイプラインで構築されています。軽量言語モデル LFM2-1.2B は、このデータに基づいて微調整され、高品質の英語の命令セットをアラビア語に翻訳するために使用される。我々は、Halaモデルを350M、700M、1.2B、9Bパラメータでトレーニングし、アラビア語の特殊化とベースモデルの強度のバランスをとるためにスラープマージを適用します。
論文参考訳（メタデータ） (2025-09-17T14:19:28Z)
Arabic Dialect Classification using RNNs, Transformers, and Large Language Models: A Comparative Analysis [0.0]
アラビア語は世界でも最も人気のある言語の一つであり、22か国で話される方言が多種多様である。本研究では、アラビア語のツイートのQADIデータセットの18のアラビア方言を分類する問題に対処する。このうち、MARBERTv2は65%の精度、64%のF1スコアで最高の成績を収めた。
論文参考訳（メタデータ） (2025-06-24T16:06:58Z)
AIN: The Arabic INclusive Large Multimodal Model [71.29419186696138]
AIN (英語: AIN) は、英語とアラビア語で卓越するように設計された英語とアラビア語のバイリンガルLMMである。 AINは最先端のアラビア語のパフォーマンスを実証する一方で、英語の視覚能力も優れている。 AINの優れた能力は、先進的なマルチモーダル生成AIツールでアラビア語話者を強化するための重要なステップである。
論文参考訳（メタデータ） (2025-01-31T18:58:20Z)
Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-07-22T05:35:17Z)
AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。 AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文参考訳（メタデータ） (2024-07-18T02:13:50Z)
Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。 2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文参考訳（メタデータ） (2024-07-13T21:09:38Z)
GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文参考訳（メタデータ） (2024-07-02T10:43:49Z)
Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks [29.819766942335416]
MLLM(Multimodal large language model)は、複雑な推論と言語理解を必要とする幅広いタスクにおいて有効であることが証明されている。我々は、強力なビジョンと言語能力を備えた、textitPeacockと呼ばれる、アラビア語のMLLMの包括的なファミリーを紹介する。
論文参考訳（メタデータ） (2024-03-01T23:38:02Z)
Training a Bilingual Language Model by Mapping Tokens onto a Shared Character Space [2.9914612342004503]
我々は、ヘブライ語でアラビア文字の翻訳版を用いてバイリンガルアラビア語・ヘブライ語モデルを訓練する。両言語に統一的なスクリプトを用いた言語モデルの性能を機械翻訳を用いて評価する。
論文参考訳（メタデータ） (2024-02-25T11:26:39Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。 Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文参考訳（メタデータ） (2023-09-19T04:13:22Z)
Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文参考訳（メタデータ） (2023-08-30T17:07:17Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
Parameter and Data Efficient Continual Pre-training for Robustness to Dialectal Variance in Arabic [9.004920233490642]
多言語BERT(mBERT)がアラビア語単言語データに漸進的に事前訓練されることは、トレーニング時間が少なく、我々のカスタム単言語単言語モデルと比較すると、同等の精度が得られることを示す。次に,(1)少数の方言データを用いて連続的な微調整を行い,(2)アラビア語から英語への平行なデータと翻訳言語モデリング損失関数を探索する。
論文参考訳（メタデータ） (2022-11-08T02:51:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。