論文の概要: Peacock: A Family of Arabic Multimodal Large Language Models and
Benchmarks
- arxiv url: http://arxiv.org/abs/2403.01031v1
- Date: Fri, 1 Mar 2024 23:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:39:16.301512
- Title: Peacock: A Family of Arabic Multimodal Large Language Models and
Benchmarks
- Title(参考訳): peacock: アラビア語のマルチモーダル大規模言語モデルとベンチマークのファミリー
- Authors: Fakhraddin Alwajih, El Moatez Billah Nagoudi, Gagan Bhatia,
Abdelrahman Mohamed, Muhammad Abdul-Mageed
- Abstract要約: MLLM(Multimodal large language model)は、複雑な推論と言語理解を必要とする幅広いタスクにおいて有効であることが証明されている。
我々は、強力なビジョンと言語能力を備えた、textitPeacockと呼ばれる、アラビア語のMLLMの包括的なファミリーを紹介する。
- 参考スコア(独自算出の注目度): 31.99201631669248
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models (MLLMs) have proven effective in a wide
range of tasks requiring complex reasoning and linguistic comprehension.
However, due to a lack of high-quality multimodal resources in languages other
than English, success of MLLMs remains relatively limited to English-based
settings. This poses significant challenges in developing comparable models for
other languages, including even those with large speaker populations such as
Arabic. To alleviate this challenge, we introduce a comprehensive family of
Arabic MLLMs, dubbed \textit{Peacock}, with strong vision and language
capabilities. Through comprehensive qualitative and quantitative analysis, we
demonstrate the solid performance of our models on various visual reasoning
tasks and further show their emerging dialectal potential. Additionally, we
introduce ~\textit{Henna}, a new benchmark specifically designed for assessing
MLLMs on aspects related to Arabic culture, setting the first stone for
culturally-aware Arabic MLLMs.The GitHub repository for the \textit{Peacock}
project is available at \url{https://github.com/UBC-NLP/peacock}.
- Abstract(参考訳): MLLM(Multimodal large language model)は、複雑な推論と言語理解を必要とする幅広いタスクにおいて有効であることが証明されている。
しかし、英語以外の言語では高品質なマルチモーダルリソースが不足しているため、MLLMの成功は英語ベースの設定に限られている。
これは、アラビア語のような大きな話者人口を持つ言語を含む、他の言語に匹敵するモデルを開発する上で大きな課題となる。
この課題を緩和するために、強いビジョンと言語能力を備えた、アラビア語のmllmの包括的ファミリーである \textit{peacock} を導入する。
総合的定性的・定量的解析により,様々な視覚的推論タスクにおけるモデルの性能を実証し,その新たな方言的可能性を示す。
さらに、アラビア語文化に関するmllmを評価するために特別に設計された新しいベンチマークである~\textit{henna}を紹介し、文化的に認識されたアラビア語mllmsの最初のストーンを設定します。
関連論文リスト
- SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic [14.453861745003865]
我々は、LLaMA-2に基づく先進言語モデルを用いて、多モーダルインタラクションを容易にする、効率の良いアラビア多モーダルアシスタント、Dallahを導入する。
Dallah氏はアラビア語のMLLMで最先端のパフォーマンスを示し、2つのベンチマークテストで優れています。
ダッラーは、方言を意識したアラビア語のMLLMのさらなる発展の道を開く可能性がある。
論文 参考訳(メタデータ) (2024-07-25T15:36:48Z) - ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。
我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。
人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-22T05:35:17Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。