論文の概要: VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search
- arxiv url: http://arxiv.org/abs/2503.10582v1
- Date: Thu, 13 Mar 2025 17:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:55:22.329638
- Title: VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search
- Title(参考訳): VisualWeb Instruct: Web検索によるマルチモーダルインストラクションデータのスケールアップ
- Authors: Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen,
- Abstract要約: 複数の分野にまたがる多種多様な高品質なデータセットを作成するために、VisualWebInstructを提案する。
約900Kの質問応答ペアからなるデータセットを構築し、40%は視覚的QAペアで、残りはテキストQAペアです。
MMMU-Pro-std(40.7%)、MathVerse(42.6%)、DynaMath(55.7%)の10Bパラメータクラスにおける最先端性能を示す。
- 参考スコア(独自算出の注目度): 42.560419395815146
- License:
- Abstract: Vision-Language Models have made significant progress on many perception-focused tasks, however, their progress on reasoning-focused tasks seem to be limited due to the lack of high-quality and diverse training data. In this work, we aim to address the scarcity issue of reasoning-focused multimodal datasets. We propose VisualWebInstruct - a novel approach that leverages search engine to create a diverse, and high-quality dataset spanning multiple disciplines like math, physics, finance, chemistry, etc. Starting with meticulously selected 30,000 seed images, we employ Google Image search to identify websites containing similar images. We collect and process the HTMLs from over 700K unique URL sources. Through a pipeline of content extraction, filtering and synthesis, we build a dataset of approximately 900K question-answer pairs, with 40% being visual QA pairs and the rest as text QA pairs. Models fine-tuned on VisualWebInstruct demonstrate significant performance gains: (1) training from Llava-OV-mid shows 10-20% absolute point gains across benchmarks, (2) training from MAmmoTH-VL shows 5% absoluate gain. Our best model MAmmoTH-VL2 shows state-of-the-art performance within the 10B parameter class on MMMU-Pro-std (40.7%), MathVerse (42.6%), and DynaMath (55.7%). These remarkable results highlight the effectiveness of our dataset in enhancing VLMs' reasoning capabilities for complex multimodal tasks.
- Abstract(参考訳): 視覚言語モデルは、多くの知覚に焦点を当てたタスクにおいて大きな進歩を遂げてきたが、高品質で多様なトレーニングデータがないため、推論に焦点を当てたタスクに対する彼らの進歩は限られているように思われる。
本研究では,推論に着目したマルチモーダルデータセットの不足問題に対処することを目的とする。
VisualWebInstruct - 検索エンジンを活用して、数学、物理学、金融、化学など、さまざまな分野にまたがる多様で高品質なデータセットを作成する新しいアプローチを提案する。
精巧に選択された3万枚のシード画像から始まり、Googleイメージ検索を用いて類似画像を含むウェブサイトを識別する。
700万以上のユニークなURLソースからHTMLを収集し、処理します。
コンテンツ抽出,フィルタリング,合成のパイプラインを通じて,約900K問合せ対のデータセットを構築し,40%は視覚的QA対,残りはテキストQA対とする。
1) Llava-OV-midからのトレーニングはベンチマーク全体で10-20%の絶対点ゲインを示し、(2) MAmmoTH-VLからのトレーニングは5%の絶対点ゲインを示している。
私たちのベストモデルであるMAmmoTH-VL2は、MMMU-Pro-std (40.7%)、MathVerse (42.6%)、DynaMath (55.7%)の10Bパラメータクラスにおける最先端のパフォーマンスを示している。
これらの顕著な結果は、複雑なマルチモーダルタスクに対するVLMの推論能力を高めるためのデータセットの有効性を浮き彫りにしている。
関連論文リスト
- Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。
我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。
実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:38:12Z) - ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models [103.25208095165486]
既存のプラクティスは命令データを生成するために、強力だが高価な言語モデル(LLM)やマルチモーダル言語モデル(MLM)に依存している。
本稿では,シーングラフを画像のシンボル表現として利用し,視覚中心の命令データを体系的に合成するプログラムを提案する。
提案手法は,データ生成プロセスの解釈可能性と制御性を保証し,実際の精度を維持しながら効率よくスケールする。
論文 参考訳(メタデータ) (2024-12-09T21:44:02Z) - InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - DLM-VMTL:A Double Layer Mapper for heterogeneous data video Multi-task prompt learning [2.4121373594852846]
マルチタスク学習は、視覚的なタスクが、共同トレーニング中に他のタスクから豊富な共有可能な知識を取得するようにする。
上記の問題に対処するために, Heterogenous data video multi-task prompt learning (VMTL) 法を提案する。
Double-Layers Mapper(DLM)は、共有可能な知識を視覚的プロンプトSに抽出し、プライマリタスクの表現と整合させる。
論文 参考訳(メタデータ) (2024-08-29T01:25:36Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - SVIT: Scaling up Visual Instruction Tuning [26.794950789335402]
我々は,会話質問応答(QA)ペアの1.6M,QAペアの1.6M,QAペアの1.0M,詳細な画像記述の106Kを含む4200万の視覚的インストラクションチューニングデータを構築した。
実験では、提案したデータセットに基づいてトレーニングされたSVIT-v1.5が、一般的なベンチマークで最先端のマルチモーダル大規模言語モデルを上回っていることを確認した。
論文 参考訳(メタデータ) (2023-07-09T03:25:14Z) - WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models [2.603259641572195]
我々はWuDaoMMという大規模マルチモーダルコーパスを導入し、6億5000万以上の画像テキストペアを網羅した。
画像とキャプションの相関が弱い複数のWebページから、約6億のデータを収集する。
また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。
論文 参考訳(メタデータ) (2022-03-22T06:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。