論文の概要: MSA at ImageCLEF 2025 Multimodal Reasoning: Multilingual Multimodal Reasoning With Ensemble Vision Language Models
- arxiv url: http://arxiv.org/abs/2507.11114v1
- Date: Tue, 15 Jul 2025 09:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.04827
- Title: MSA at ImageCLEF 2025 Multimodal Reasoning: Multilingual Multimodal Reasoning With Ensemble Vision Language Models
- Title(参考訳): MSA at ImageCLEF 2025 Multimodal Reasoning: Multilingual Multimodal Reasoning with Ensemble Vision Language Models
- Authors: Seif Ahmed, Mohamed T. Younes, Abdelrahman Moustafa, Abdelrahman Allam, Hamza Moustafa,
- Abstract要約: 多言語多モーダル推論のための頑健なアンサンブルに基づくシステムを提案する。
当社のアプローチでは、ビジュアル記述にGemini 2.5 Flash、キャプションの洗練と一貫性チェックにGemini 1.5 Pro、推論にGemini 2.5 Proを統合しています。
公式のリーダーボードでは、我々のシステム(Team MSA)が81.4%の精度で多言語トラックで総合1位を獲得した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a robust ensemble-based system for multilingual multimodal reasoning, designed for the ImageCLEF 2025 EXAMS V challenge. Our approach integrates Gemini 2.5 Flash for visual description, Gemini 1.5 Pro for caption refinement and consistency checks, and Gemini 2.5 Pro as a reasoner which handles final answer selection, all coordinated through carefully engineered few-shot and zero-shot prompts. We conducted an extensive ablation study, training several large language models (Gemini 2.5 Flash, Phi 4, Gemma 3, Mistral) on an English dataset and its multilingual augmented version. Additionally, we evaluated Gemini 2.5 Flash in a zero-shot setting for comparison and found it to substantially outperform the trained models. Prompt design also proved critical: enforcing concise, language-normalized formats and prohibiting explanatory text boosted model accuracy on the English validation set from 55.9% to 61.7%. On the official leaderboard, our system (Team MSA) achieved first place overall in the multilingual track with 81.4% accuracy, and led 11 out of 13 individual language tracks, with top results such as 95.07% for Croatian and 92.12% for Italian. These findings highlight that lightweight OCR-VLM ensembles, when paired with precise prompt strategies and cross-lingual augmentation, can outperform heavier end-to-end models in high-stakes, multilingual educational settings.
- Abstract(参考訳): 我々は、ImageCLEF 2025 EXAMS Vチャレンジのために設計された多言語マルチモーダル推論のための頑健なアンサンブルベースのシステムを提案する。
当社のアプローチでは,視覚的記述にGemini 2.5 Flash,キャプションの洗練と整合性チェックにGemini 1.5 Pro,最終回答の選択を処理する推論器としてGemini 2.5 Proを統合しています。
我々は、英語データセットとその多言語拡張バージョン上で、大規模な言語モデル(Gemini 2.5 Flash, Phi 4, Gemma 3 Mistral)を訓練し、広範囲にわたるアブレーション研究を行った。
さらに、比較のためにゼロショット設定でGemini 2.5 Flashを評価し、トレーニングされたモデルを大幅に上回る結果となった。
簡潔で言語正規化されたフォーマットの強制と説明文の禁止により、55.9%から61.7%の精度が向上した。
公式のリーダーボードでは、我々のシステム(チームMSA)が81.4%の精度で総合で1位となり、クロアチア語で95.07%、イタリア語で92.12%の成績で13の言語トラックの中で11位となった。
これらの結果から,軽量なOCR-VLMアンサンブルは,高精度なプロンプト戦略と言語間拡張と組み合わせることで,多言語教育環境においてより重いエンド・ツー・エンドモデルより優れていることが示唆された。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study [13.409987421121405]
GemmaX2-28は、28言語で最上位の多言語翻訳性能を達成する9Bモデルである。
GemmaX2-28 は TowerInstruct や XALMA などの最先端 (SOTA) モデルより一貫して優れている。
論文 参考訳(メタデータ) (2025-02-04T16:57:03Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale
Efficient Pretraining [26.262677587795242]
我々は、60億以上の画像テキストペアを持つ包括的バイリンガルデータセットBM-6Bを導入する。
このようなデータセットのスケールを扱うために,画像テキストのコントラッシブな損失計算のためのグループ集約手法を提案する。
BM-6B上での細粒度理解能力を向上したバイリンガル画像テキスト基盤モデルの事前訓練を行う。
論文 参考訳(メタデータ) (2024-01-29T05:43:33Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。