論文の概要: Multilingual VLM Training: Adapting an English-Trained VLM to French
- arxiv url: http://arxiv.org/abs/2512.10336v1
- Date: Thu, 11 Dec 2025 06:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.224529
- Title: Multilingual VLM Training: Adapting an English-Trained VLM to French
- Title(参考訳): 英語学習型VLMをフランス語に適応させる多言語VLMトレーニング
- Authors: Jules Lahmi, Alexis Roger,
- Abstract要約: 本稿では、英語学習されたVLMを異なる言語に適応させる際の課題について考察する。
翻訳に基づくパイプライン、LoRAファインタニング、および視覚適応と言語適応を分離する2段階のファインタニング戦略を検討する。
その結果,データセット翻訳は多言語VLMの性能において依然として大きなボトルネックとなっていることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence has made great progress in recent years, particularly in the development of Vision--Language Models (VLMs) that understand both visual and textual data. However, these advancements remain largely limited to English, reducing their accessibility for non--English speakers. It is essential to extend these capabilities to a broader range of languages. This paper explores the challenges of adapting an English-trained VLM to different languages. To this end, we will explore and compare different methods for their performance and computational cost. We consider a translation-based pipeline, LoRA finetuning, and a two-stage finetuning strategy that separates vision adaptation from language adaptation. To evaluate these methods, we use a combination of standard multimodal benchmarks translated into the target language and manual assessments by native experts. The results reveal that dataset translation remains a major bottleneck in multilingual VLM performance, with data quality limiting the effectiveness of training and evaluation. These findings suggest that future efforts should focus on native-language dataset collection and improved translation strategies.
- Abstract(参考訳): 人工知能は近年,特に視覚・言語モデル(VLM)の開発において,視覚データとテキストデータの両方を理解する上で大きな進歩を遂げている。しかしながら,これらの進歩は英語に限られており,非英語話者のアクセシビリティが低下している。
これらの機能を幅広い言語に拡張することは不可欠である。
本稿では、英語学習されたVLMを異なる言語に適応させる際の課題について考察する。
この目的のために、性能と計算コストの異なる手法を探索し、比較する。
翻訳に基づくパイプライン、LoRAファインタニング、および視覚適応と言語適応を分離する2段階のファインタニング戦略を検討する。
これらの手法を評価するために,対象言語に翻訳された標準マルチモーダルベンチマークと,ネイティブ専門家による手動評価を組み合わせる。
その結果、データセット翻訳は多言語VLMの性能において依然として大きなボトルネックであり、データ品質はトレーニングと評価の有効性を制限していることが明らかとなった。
これらの結果は、今後は自然言語データセットの収集と翻訳戦略の改善に重点を置くべきであることを示唆している。
関連論文リスト
- TowerVision: Understanding and Improving Multilinguality in Vision-Language Models [56.775118098058506]
TowerVisionは、画像テキストとビデオテキストの両方のためのオープンな多言語視覚言語モデルである。
微調整中に視覚的、文化的コンテキストを取り入れることで、私たちのモデルは既存のアプローチを超えます。
さらなる研究を支援するため、すべてのモデル、データ、トレーニングレシピを公開しています。
論文 参考訳(メタデータ) (2025-10-22T17:02:48Z) - Building High-Quality Datasets for Portuguese LLMs: From Common Crawl Snapshots to Industrial-Grade Corpora [8.105169210920556]
大規模言語モデル(LLM)のためのWebベースコーパス構築のためのスケーラブルな手法を探究する。
我々はポルトガルに新しい120Bトークンコーパスを構築し、工業グレードコーパスに競争結果をもたらす。
対象言語にモデルを適用することでパフォーマンスが向上し、高品質な言語固有のデータの重要性が強化されることを示す。
論文 参考訳(メタデータ) (2025-09-10T17:58:23Z) - Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation [45.551223552275424]
視覚言語翻訳は、画像に埋め込まれた多言語テキストを正確に認識する必要がある課題である。
本稿では,データ品質,モデルアーキテクチャ,評価指標の3つの重要な視点からVLTを総合的に検討する。
論文 参考訳(メタデータ) (2025-06-13T14:23:38Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models [28.716852515539497]
本研究では、機械翻訳に頼ることなく、複数の言語で拡張データセットを作成する。
リソース豊富な英語のインストラクションチューニングが、他の言語のパフォーマンスを向上させるかどうかを検討した。
論文 参考訳(メタデータ) (2024-09-03T03:42:56Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。