論文の概要: Peacock: A Family of Arabic Multimodal Large Language Models and
Benchmarks
- arxiv url: http://arxiv.org/abs/2403.01031v1
- Date: Fri, 1 Mar 2024 23:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:39:16.301512
- Title: Peacock: A Family of Arabic Multimodal Large Language Models and
Benchmarks
- Title(参考訳): peacock: アラビア語のマルチモーダル大規模言語モデルとベンチマークのファミリー
- Authors: Fakhraddin Alwajih, El Moatez Billah Nagoudi, Gagan Bhatia,
Abdelrahman Mohamed, Muhammad Abdul-Mageed
- Abstract要約: MLLM(Multimodal large language model)は、複雑な推論と言語理解を必要とする幅広いタスクにおいて有効であることが証明されている。
我々は、強力なビジョンと言語能力を備えた、textitPeacockと呼ばれる、アラビア語のMLLMの包括的なファミリーを紹介する。
- 参考スコア(独自算出の注目度): 31.99201631669248
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models (MLLMs) have proven effective in a wide
range of tasks requiring complex reasoning and linguistic comprehension.
However, due to a lack of high-quality multimodal resources in languages other
than English, success of MLLMs remains relatively limited to English-based
settings. This poses significant challenges in developing comparable models for
other languages, including even those with large speaker populations such as
Arabic. To alleviate this challenge, we introduce a comprehensive family of
Arabic MLLMs, dubbed \textit{Peacock}, with strong vision and language
capabilities. Through comprehensive qualitative and quantitative analysis, we
demonstrate the solid performance of our models on various visual reasoning
tasks and further show their emerging dialectal potential. Additionally, we
introduce ~\textit{Henna}, a new benchmark specifically designed for assessing
MLLMs on aspects related to Arabic culture, setting the first stone for
culturally-aware Arabic MLLMs.The GitHub repository for the \textit{Peacock}
project is available at \url{https://github.com/UBC-NLP/peacock}.
- Abstract(参考訳): MLLM(Multimodal large language model)は、複雑な推論と言語理解を必要とする幅広いタスクにおいて有効であることが証明されている。
しかし、英語以外の言語では高品質なマルチモーダルリソースが不足しているため、MLLMの成功は英語ベースの設定に限られている。
これは、アラビア語のような大きな話者人口を持つ言語を含む、他の言語に匹敵するモデルを開発する上で大きな課題となる。
この課題を緩和するために、強いビジョンと言語能力を備えた、アラビア語のmllmの包括的ファミリーである \textit{peacock} を導入する。
総合的定性的・定量的解析により,様々な視覚的推論タスクにおけるモデルの性能を実証し,その新たな方言的可能性を示す。
さらに、アラビア語文化に関するmllmを評価するために特別に設計された新しいベンチマークである~\textit{henna}を紹介し、文化的に認識されたアラビア語mllmsの最初のストーンを設定します。
関連論文リスト
- Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。
本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - AraMUS: Pushing the Limits of Data and Model Scale for Arabic Natural
Language Processing [25.5682279613992]
AraMUSはアラビア最大のPLMで、高品質のアラビア文字データ529GBで訓練された11Bパラメータを持つ。
AraMUSはアラビア語の分類と生成タスクの多様なセットで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-06-11T22:55:18Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。