論文の概要: WAON: Large-Scale and High-Quality Japanese Image-Text Pair Dataset for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.22276v1
- Date: Sat, 25 Oct 2025 12:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.015917
- Title: WAON: Large-Scale and High-Quality Japanese Image-Text Pair Dataset for Vision-Language Models
- Title(参考訳): WAON:視覚言語モデルのための大規模かつ高品質な日本語画像テキストペアデータセット
- Authors: Issa Sugiura, Shuhei Kurita, Yusuke Oda, Daisuke Kawahara, Yasuo Okabe, Naoaki Okazaki,
- Abstract要約: WAONは、大規模かつ高品質な画像テキストペアデータセットである。
本手法の有効性を評価するため,日本文化イメージ分類のベンチマークであるWAON-Benchを構築した。
両方のデータセット上で、強力な多言語モデルであるSigLIP2を微調整する。
- 参考スコア(独自算出の注目度): 29.864478753087138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale and high-quality image-text pair datasets play an important role in developing high-performing Vision-Language Models (VLMs). In this work, we introduce WAON, a large-scale and high-quality Japanese image-text pair dataset containing approximately 155 million examples, collected from Common Crawl. Our dataset construction pipeline employs various techniques, including filtering and deduplication, which have been shown to be effective in previous studies. To evaluate its effectiveness, we also construct WAON-Bench, a manually curated benchmark for Japanese cultural image classification, consisting of 374 classes. To assess the effectiveness of our dataset, we conduct experiments using both WAON and the Japanese subset of ReLAION, one of the most widely used vision-language datasets. We fine-tune SigLIP2, a strong multilingual model, on both datasets. The results demonstrate that WAON enhances model performance on WAON-Bench more efficiently than ReLAION and achieves higher accuracy across all evaluated benchmarks. Furthermore, the model fine-tuned on WAON achieves state-of-the-art performance on several Japanese cultural benchmarks. We release our dataset, model, and code at https://speed1313.github.io/WAON.
- Abstract(参考訳): 大規模で高品質な画像テキストペアデータセットは、高パフォーマンスなビジョンランゲージモデル(VLM)を開発する上で重要な役割を果たす。
本研究では,Common Crawlから収集した約155万のサンプルを含む大規模かつ高品質な日本語画像テキストペアデータセットWAONを紹介する。
データセット構築パイプラインには,従来の研究で有効であったフィルタリングや重複解消など,さまざまな手法が採用されている。
また、その効果を評価するために、374のクラスからなる日本の文化イメージ分類のための手作業によるベンチマークであるWAON-Benchを構築した。
このデータセットの有効性を評価するために、WAONと、最も広く使われている視覚言語データセットであるReLAIONの日本語サブセットを用いて実験を行った。
両方のデータセット上で、強力な多言語モデルであるSigLIP2を微調整する。
その結果,WAON は WAON-Bench のモデル性能を ReLAION よりも効率的に向上し,評価されたベンチマークの精度も向上した。
さらに、WAONに微調整されたモデルは、いくつかの日本の文化ベンチマークで最先端のパフォーマンスを達成する。
私たちはデータセット、モデル、コードをhttps://speed1313.github.io/WAONでリリースしています。
関連論文リスト
- Harnessing PDF Data for Improving Japanese Large Multimodal Models [56.80385809059738]
大規模マルチモーダルモデル (LMM) は英語では高い性能を示したが、日本語では有効性は限られている。
現在の日本のLMMは、しばしば翻訳された英語のデータセットに依存しており、日本固有の文化知識を捉える能力を制限する。
我々は、事前訓練されたモデルを利用してPDFから画像とテキストのペアを抽出する完全自動パイプラインを導入する。
論文 参考訳(メタデータ) (2025-02-20T17:59:59Z) - Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models [1.9890559505377343]
現在の視覚言語マルチモーダルモデルは、一般的な視覚的理解タスクに適している。
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する手法を提案する。
このデータセットを用いてLLaVA-1.5-7Bモデルを微調整し、ベンチマークで評価し、大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-09-14T05:07:57Z) - Multilingual Diversity Improves Vision-Language Representations [97.16233528393356]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - From Base to Conversational: Japanese Instruction Dataset and Tuning
Large Language Models [6.520584613661788]
既存のデータセットを拡張・フィルタリングすることで,日本語の命令データセットを構築する。
日本語と英語の両方の既存モデルでローランド適応(LoRA)チューニングを行う。
論文 参考訳(メタデータ) (2023-09-07T00:14:37Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。