論文の概要: Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.02048v1
- Date: Thu, 02 Apr 2026 13:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.830162
- Title: Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models
- Title(参考訳): Jagle:ビジョンランゲージモデルのための大規模日本語マルチモーダルポストトレーニングデータセットの構築
- Authors: Issa Sugiura, Keito Sasagawa, Keisuke Nakao, Koki Maeda, Ziqi Yin, Zhishen Yang, Shuhei Kurita, Yusuke Oda, Ryoko Tokuhisa, Daisuke Kawahara, Naoaki Okazaki,
- Abstract要約: 多様なタスクにまたがって一般化する視覚言語モデル(VLM)の開発には、多様なコンテンツを持つ大規模なトレーニングデータセットが必要である。
本稿では,日本最大のマルチモーダルポストトレーニングデータセットであるJagleについて紹介する。
実験により,ジャグルで訓練した2.2Bモデルが,10の日本語評価課題の平均得点を上回り,Qwen3-VL-2B-インストラクトの5点以内まで接近することにより,日本のタスクに強い性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 27.57801699230882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing vision-language models (VLMs) that generalize across diverse tasks requires large-scale training datasets with diverse content. In English, such datasets are typically constructed by aggregating and curating numerous existing visual question answering (VQA) resources. However, this strategy does not readily extend to other languages, where VQA datasets remain limited in both scale and domain coverage, posing a major obstacle to building high-quality multilingual and non-English VLMs. In this work, we introduce Jagle, the largest Japanese multimodal post-training dataset to date, comprising approximately 9.2 million instances across diverse tasks. Rather than relying on existing VQA datasets, we collect heterogeneous source data, including images, image-text pairs, and PDF documents, and generate VQA pairs through multiple strategies such as VLM-based QA generation, translation, and text rendering. Experiments demonstrate that a 2.2B model trained with Jagle achieves strong performance on Japanese tasks, surpassing InternVL3.5-2B in average score across ten Japanese evaluation tasks and approaching within five points of Qwen3-VL-2B-Instruct. Furthermore, combining Jagle with FineVision does not degrade English performance; instead, it improves English performance compared to training with FineVision alone. To facilitate reproducibility and future research, we release the dataset, trained models, and code.
- Abstract(参考訳): 多様なタスクにまたがって一般化する視覚言語モデル(VLM)の開発には、多様なコンテンツを持つ大規模なトレーニングデータセットが必要である。
英語では、このようなデータセットは、多くの既存の視覚的質問応答(VQA)リソースを集約し、キュレーションすることによって構築されるのが一般的である。
しかし、この戦略は、VQAデータセットがスケールとドメインカバレッジの両方で制限され続けており、高品質な多言語および非英語のVLMを構築する上で大きな障害となっている他の言語にも容易には適用できない。
本稿では,日本最大のマルチモーダルポストトレーニングデータセットであるJagleについて紹介する。
既存のVQAデータセットに頼るのではなく、画像、画像-テキストペア、PDFドキュメントを含む異種ソースデータを収集し、VLMベースのQA生成、翻訳、テキストレンダリングといった複数の戦略を通じてVQAペアを生成する。
実験により,ジャグルで訓練した2.2Bモデルが,10の日本語評価課題の平均得点を上回り,Qwen3-VL-2B-インストラクトの5点以内まで接近することにより,日本のタスクに強い性能を発揮することが示された。
さらに、ジャグルとファインビジョンの組み合わせは英語のパフォーマンスを低下させるものではなく、ファインビジョン単独でのトレーニングよりも英語のパフォーマンスを向上させる。
再現性と将来の研究を容易にするため、私たちはデータセット、訓練されたモデル、コードをリリースします。
関連論文リスト
- TowerVision: Understanding and Improving Multilinguality in Vision-Language Models [56.775118098058506]
TowerVisionは、画像テキストとビデオテキストの両方のためのオープンな多言語視覚言語モデルである。
微調整中に視覚的、文化的コンテキストを取り入れることで、私たちのモデルは既存のアプローチを超えます。
さらなる研究を支援するため、すべてのモデル、データ、トレーニングレシピを公開しています。
論文 参考訳(メタデータ) (2025-10-22T17:02:48Z) - Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - EVJVQA Challenge: Multilingual Visual Question Answering [1.4641199499831683]
VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)の課題である。
EVJVQAはベトナム語と音声処理に関する第9回ワークショップ(VLSP 2022)で、多言語視覚質問応答のためのベンチマークデータセットとして使用される。
本稿では,課題の組織化,共有タスク参加者が採用した手法の概要,その結果について述べる。
論文 参考訳(メタデータ) (2023-02-23T02:38:39Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。