論文の概要: M-MiniGPT4: Multilingual VLLM Alignment via Translated Data
- arxiv url: http://arxiv.org/abs/2603.29467v1
- Date: Tue, 31 Mar 2026 09:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.440106
- Title: M-MiniGPT4: Multilingual VLLM Alignment via Translated Data
- Title(参考訳): M-MiniGPT4:翻訳データによる多言語VLLMアライメント
- Authors: Seung Hun Han, Youssef Mohamed, Mohamed Elhoseiny,
- Abstract要約: M-MiniGPT4は11言語にまたがる強力な視覚言語理解(VLU)能力を示す。
我々は、ネイティブな多言語データと翻訳データを組み合わせて、MiniGPT4アーキテクチャの多言語VLU性能をプッシュする。
M-MiniGPT4は多言語MMMUベンチマークで36%の精度を達成し、同じ重みクラスにおける最先端モデルよりも優れている。
- 参考スコア(独自算出の注目度): 37.12451638190918
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a Multilingual Vision Large Language Model, named M-MiniGPT4. Our model exhibits strong vision-language understanding (VLU) capabilities across 11 languages. We utilize a mixture of native multilingual and translated data to push the multilingual VLU performance of the MiniGPT4 architecture. In addition, we propose a multilingual alignment training stage that uses parallel text corpora to further enhance the multilingual capabilities of our model. M-MiniGPT4 achieves 36% accuracy on the multilingual MMMU benchmark, outperforming state-of-the-art models in the same weight class, including foundation models released after the majority of this work was completed. We open-source our models, code, and translated datasets to facilitate future research in low-resource and multilingual settings.
- Abstract(参考訳): 本稿では,M-MiniGPT4という多言語視覚大言語モデルを提案する。
我々のモデルは11言語にまたがる強力な視覚言語理解(VLU)能力を示す。
我々は、ネイティブな多言語データと翻訳データを組み合わせて、MiniGPT4アーキテクチャの多言語VLU性能をプッシュする。
さらに,並列テキストコーパスを用いた多言語アライメント学習のステージを提案する。
M-MiniGPT4は多言語MMMUベンチマークで36%の精度を達成し、ほとんどの研究が完了した後の基盤モデルを含む、同じ重みクラスで最先端のモデルを上回った。
我々は、低リソースおよび多言語環境における将来の研究を促進するために、私たちのモデル、コード、翻訳データセットをオープンソース化します。
関連論文リスト
- Scaling Model and Data for Multilingual Machine Translation with Open Large Language Models [38.626788948945844]
本稿では,多言語多言語機械翻訳(MT)のためのオープン大言語モデル(LLM)について述べる。
46言語で最上位の多言語翻訳性能を実現するMiLMMT-46を開発した。
論文 参考訳(メタデータ) (2026-02-12T13:56:02Z) - TowerVision: Understanding and Improving Multilinguality in Vision-Language Models [56.775118098058506]
TowerVisionは、画像テキストとビデオテキストの両方のためのオープンな多言語視覚言語モデルである。
微調整中に視覚的、文化的コンテキストを取り入れることで、私たちのモデルは既存のアプローチを超えます。
さらなる研究を支援するため、すべてのモデル、データ、トレーニングレシピを公開しています。
論文 参考訳(メタデータ) (2025-10-22T17:02:48Z) - Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study [13.409987421121405]
GemmaX2-28は、28言語で最上位の多言語翻訳性能を達成する9Bモデルである。
GemmaX2-28 は TowerInstruct や XALMA などの最先端 (SOTA) モデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-02-04T16:57:03Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - M5 -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks [10.677274746850554]
M5は多言語コンテキストにおける様々な視覚・運動タスクのLMMを評価するために設計された最初の総合ベンチマークである。
ハイソース言語と低リソース言語のタスクに依存しないパフォーマンスの相違を強調した。
より大規模なモデルは、多言語環境では必ずしもより小さなモデルよりも優れているとは限らないことを示す。
論文 参考訳(メタデータ) (2024-07-04T09:55:04Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。