論文の概要: Maya: An Instruction Finetuned Multilingual Multimodal Model
- arxiv url: http://arxiv.org/abs/2412.07112v1
- Date: Tue, 10 Dec 2024 01:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:11.896243
- Title: Maya: An Instruction Finetuned Multilingual Multimodal Model
- Title(参考訳): マヤ:多言語マルチモーダルモデル
- Authors: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji,
- Abstract要約: 視覚言語学習のためのオープンソースのマルチモーダルモデルであるMayaを紹介する。
1)LLaVA事前学習データセットに基づく8言語における多言語画像テキスト事前学習データセット,2)LLaVAデータセット内の毒性の徹底的な分析,続いて8言語にわたる新たな毒性のないバージョンの作成,3)これらの言語をサポートする多言語画像テキストモデル,そして視覚言語タスクにおける文化的・言語的理解の強化。
- 参考スコア(独自算出の注目度): 13.685597072939565
- License:
- Abstract: The rapid development of large Vision-Language Models (VLMs) has led to impressive results on academic benchmarks, primarily in widely spoken languages. However, significant gaps remain in the ability of current VLMs to handle low-resource languages and varied cultural contexts, largely due to a lack of high-quality, diverse, and safety-vetted data. Consequently, these models often struggle to understand low-resource languages and cultural nuances in a manner free from toxicity. To address these limitations, we introduce Maya, an open-source Multimodal Multilingual model. Our contributions are threefold: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; 2) a thorough analysis of toxicity within the LLaVA dataset, followed by the creation of a novel toxicity-free version across eight languages; and 3) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.
- Abstract(参考訳): VLM(Varge Vision-Language Models)の急速な発展は、主に広く話される言語において、学術的なベンチマークにおいて印象的な結果をもたらした。
しかしながら、現在のVLMが低リソース言語や様々な文化的文脈を扱う能力には大きなギャップが残っている。
その結果、これらのモデルは、低リソース言語や文化的ニュアンスを理解するのに、毒性のない方法で苦労することが多い。
これらの制約に対処するため,オープンソースのマルチモーダル多言語モデルであるMayaを紹介した。
私たちの貢献は3倍です。
1)LLaVA事前学習データセットに基づく8言語多言語画像テキスト事前学習データセット
2)LLaVAデータセット内の毒性の徹底的な分析,次いで8言語にまたがる新規毒性のないバージョンの作成。
3)これらの言語をサポートする多言語画像テキストモデルにより,視覚言語タスクにおける文化的・言語的理解が向上する。
コードはhttps://github.com/nahidalam/maya.comで公開されている。
関連論文リスト
- How does a Multilingual LM Handle Multiple Languages? [0.0]
本研究では,多言語理解,意味表現,言語間知識伝達の能力について批判的に検討する。
コサイン類似性を用いた一貫性のための多言語単語埋め込みの分析により意味的類似性を評価する。
BLOOM-1.7B と Qwen2 を Named Entity Recognition と文類似性タスクを通して調べ、それらの言語構造を理解する。
論文 参考訳(メタデータ) (2025-02-06T18:08:14Z) - MERaLiON-TextLLM: Cross-Lingual Understanding of Large Language Models in Chinese, Indonesian, Malay, and Singlish [17.36441080071885]
本報告では,中国語,インドネシア語,マレー語,シングリッシュ語の理解と生成を改善するためのオープンソース言語モデルであるMERaLiON-TextLLMについて述べる。
提案手法は,これらの言語のベンチマークにおいて,公式のLlama-3モデルを上回る性能向上を実現する。
論文 参考訳(メタデータ) (2024-12-21T05:50:48Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。