論文の概要: Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic
- arxiv url: http://arxiv.org/abs/2407.18129v1
- Date: Thu, 25 Jul 2024 15:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:29:21.046945
- Title: Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic
- Title(参考訳): Dallah: アラビア語の対話型マルチモーダル大言語モデル
- Authors: Fakhraddin Alwajih, Gagan Bhatia, Muhammad Abdul-Mageed,
- Abstract要約: 我々は、LLaMA-2に基づく先進言語モデルを用いて、多モーダルインタラクションを容易にする、効率の良いアラビア多モーダルアシスタント、Dallahを導入する。
Dallah氏はアラビア語のMLLMで最先端のパフォーマンスを示し、2つのベンチマークテストで優れています。
ダッラーは、方言を意識したアラビア語のMLLMのさらなる発展の道を開く可能性がある。
- 参考スコア(独自算出の注目度): 14.453861745003865
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements have significantly enhanced the capabilities of Multimodal Large Language Models (MLLMs) in generating and understanding image-to-text content. Despite these successes, progress is predominantly limited to English due to the scarcity of high quality multimodal resources in other languages. This limitation impedes the development of competitive models in languages such as Arabic. To alleviate this situation, we introduce an efficient Arabic multimodal assistant, dubbed Dallah, that utilizes an advanced language model based on LLaMA-2 to facilitate multimodal interactions. Dallah demonstrates state-of-the-art performance in Arabic MLLMs. Through fine-tuning six Arabic dialects, Dallah showcases its capability to handle complex dialectal interactions incorporating both textual and visual elements. The model excels in two benchmark tests: one evaluating its performance on Modern Standard Arabic (MSA) and another specifically designed to assess dialectal responses. Beyond its robust performance in multimodal interaction tasks, Dallah has the potential to pave the way for further development of dialect-aware Arabic MLLMs.
- Abstract(参考訳): 近年,画像からテキストコンテンツの生成・理解において,MLLM(Multimodal Large Language Models)の能力が大幅に向上している。
これらの成功にもかかわらず、他の言語で高品質なマルチモーダルリソースが不足しているため、進歩は英語に限られている。
この制限はアラビア語などの言語における競争モデルの発展を妨げる。
この状況を緩和するために,LLaMA-2に基づく先進言語モデルを用いて多モーダルインタラクションを容易にする,効率の良いアラビア多モーダルアシスタントであるDallahを導入する。
Dallah氏はアラビア語のMLLMで最先端のパフォーマンスをデモしている。
ダッラーは6つのアラビア方言を微調整することで、テキスト要素と視覚要素の両方を取り入れた複雑な方言の相互作用を扱う能力を示した。
このモデルは2つのベンチマークテストで優れており、1つは現代標準アラビア語(MSA)の性能を評価するもので、もう1つは方言の反応を評価するために特別に設計されたものである。
マルチモーダルな相互作用タスクにおける堅牢なパフォーマンスに加えて、ダッラーは方言を意識したアラビア・MLLMのさらなる発展の道を開くことができる。
関連論文リスト
- VITA: Towards Open-Source Interactive Omni Multimodal LLM [104.52782565106033]
MLLM(Multimodal Large Language Model)の最初のオープンソースであるVITAを紹介する。
2段階のマルチタスク学習により,言語モデルに視覚的・音声的能力を持たせる。
VITAは、多言語、視覚、および音声理解の堅牢な基礎機能を示す。
論文 参考訳(メタデータ) (2024-08-09T17:59:49Z) - ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。
我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。
人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-22T05:35:17Z) - GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - SUTRA: Scalable Multilingual Language Model Architecture [5.771289785515227]
我々は50以上の言語でテキストの理解、推論、生成が可能な多言語大言語モデルアーキテクチャSUTRAを紹介する。
広範な評価により、SUTRA は GPT-3.5 や Llama2 といった既存のモデルを 20-30% 上回って、主要なMultitask Language Understanding (MMLU) ベンチマークを上回ります。
以上の結果から,SUTRAは多言語モデル機能において重要なギャップを埋めるだけでなく,AIアプリケーションにおける運用効率とスケーラビリティの新たなベンチマークを確立することが示唆された。
論文 参考訳(メタデータ) (2024-05-07T20:11:44Z) - Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks [29.819766942335416]
MLLM(Multimodal large language model)は、複雑な推論と言語理解を必要とする幅広いタスクにおいて有効であることが証明されている。
我々は、強力なビジョンと言語能力を備えた、textitPeacockと呼ばれる、アラビア語のMLLMの包括的なファミリーを紹介する。
論文 参考訳(メタデータ) (2024-03-01T23:38:02Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。