論文の概要: Behind Maya: Building a Multilingual Vision Language Model
- arxiv url: http://arxiv.org/abs/2505.08910v2
- Date: Thu, 15 May 2025 04:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 12:00:18.777854
- Title: Behind Maya: Building a Multilingual Vision Language Model
- Title(参考訳): Behind Maya: マルチ言語ビジョン言語モデルの構築
- Authors: Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji,
- Abstract要約: オープンソースのMultilingual VLMであるMayaを紹介します。
コントリビューションは,1)LLaVA事前学習データセットに基づく8言語による多言語画像テキスト事前学習データセット,2)これらの言語をサポートする多言語画像テキストモデル,そして,視覚言語タスクにおける文化的・言語的理解の向上である。
- 参考スコア(独自算出の注目度): 13.685597072939565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent times, we have seen a rapid development of large Vision-Language Models (VLMs). They have shown impressive results on academic benchmarks, primarily in widely spoken languages but lack performance on low-resource languages and varied cultural contexts. To address these limitations, we introduce Maya, an open-source Multilingual VLM. Our contributions are: 1) a multilingual image-text pretraining dataset in eight languages, based on the LLaVA pretraining dataset; and 2) a multilingual image-text model supporting these languages, enhancing cultural and linguistic comprehension in vision-language tasks. Code available at https://github.com/nahidalam/maya.
- Abstract(参考訳): 近年,大規模視覚言語モデル (VLM) の急速な発展が見られた。
彼らは学術的なベンチマークで印象的な結果を示しており、主に広く話されている言語であるが、低リソース言語や様々な文化的文脈でのパフォーマンスは欠如している。
これらの制限に対処するため、オープンソースのMultilingual VLMであるMayaを紹介します。
私たちの貢献は次のとおりです。
1)LLaVA事前学習データセットに基づく8言語多言語画像テキスト事前学習データセット
2)これらの言語をサポートする多言語画像テキストモデルにより,視覚言語タスクにおける文化的・言語的理解が向上する。
コードはhttps://github.com/nahidalam/maya.comで公開されている。
関連論文リスト
- Chitrarth: Bridging Vision and Language for a Billion People [4.434971952378384]
我々は、包括的視覚言語モデル(VLM)であるChitrarth (Chitra: Image; Artha: Meaning)を紹介する。
我々のモデルは、多言語画像テキストデータに基づいて訓練された視覚モジュールと、最先端(SOTA)多言語大言語モデル(LLM)を効果的に統合する。
本モデルでは,低リソース言語を対象としたベンチマークのSOTA結果が得られたが,その効率は英語で維持されている。
論文 参考訳(メタデータ) (2025-02-21T11:38:40Z) - Maya: An Instruction Finetuned Multilingual Multimodal Model [13.685597072939565]
視覚言語学習のためのオープンソースのマルチモーダルモデルであるMayaを紹介する。
1)LLaVA事前学習データセットに基づく8言語における多言語画像テキスト事前学習データセット,2)LLaVAデータセット内の毒性の徹底的な分析,続いて8言語にわたる新たな毒性のないバージョンの作成,3)これらの言語をサポートする多言語画像テキストモデル,そして視覚言語タスクにおける文化的・言語的理解の強化。
論文 参考訳(メタデータ) (2024-12-10T01:57:17Z) - Tagengo: A Multilingual Chat Dataset [3.8073142980733]
74言語で70k以上のプロンプト応答対の高品質なデータセットを提示する。
このデータセットを使って、最先端のオープンソースLLMをトレーニングし、マルチ言語でチャットします。
論文 参考訳(メタデータ) (2024-05-21T09:06:36Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。