論文の概要: HoneyBee: Data Recipes for Vision-Language Reasoners
- arxiv url: http://arxiv.org/abs/2510.12225v1
- Date: Tue, 14 Oct 2025 07:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.225271
- Title: HoneyBee: Data Recipes for Vision-Language Reasoners
- Title(参考訳): HoneyBee: ビジョンランゲージ推論のためのデータレシピ
- Authors: Hritik Bansal, Devandra Singh Sachan, Kai-Wei Chang, Aditya Grover, Gargi Ghosh, Wen-tau Yih, Ramakanth Pasunuru,
- Abstract要約: いくつかのデータキュレーション手法を導入し、視覚言語モデル(VLM)への影響について検討する。
我々は、コンテキスト(イメージと質問ペア)ソースの効果を分析し、対象とするデータ介入を実装し、画像、質問、チェーン・オブ・思想(CoT)ソリューションのスケールアップを探る。
これらの知見に触発されたHoneyBeeは、大規模で高品質なCoT推論データセットであり、350万のイメージ検索ペアからなる2.5万のサンプルがある。
- 参考スコア(独自算出の注目度): 90.83745691506329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have made them highly effective at reasoning tasks. However, the principles underlying the construction of performant VL reasoning training datasets remain poorly understood. In this work, we introduce several data curation approaches and study their impacts on VL reasoning capabilities by carefully controlling training and evaluation setups. We analyze the effects of context (image and question pair) sources, implement targeted data interventions, and explore scaling up images, questions, and chain-of-thought (CoT) solutions. Our findings reveal that (a) context source strategies significantly affect VLM performance, (b) interventions such as auxiliary signals from image captions and the inclusion of text-only reasoning yield substantial gains, and (c) scaling all data dimensions (e.g., unique questions per image and unique CoTs per image-question pair) consistently improves reasoning capability. Motivated by these insights, we introduce HoneyBee, a large-scale, high-quality CoT reasoning dataset with 2.5M examples consisting 350K image-question pairs. VLMs trained with HoneyBee outperform state-of-the-art models across model sizes. For instance, a HoneyBee-trained VLM with 3B parameters outperforms the SOTA model and the base model by 7.8% and 24.8%, respectively, on MathVerse. Furthermore, we propose a test-time scaling strategy that reduces decoding cost by 73% without sacrificing accuracy. Overall, this work presents improved strategies for VL reasoning dataset curation research.
- Abstract(参考訳): 近年の視覚言語モデル (VLM) の進歩により, 推論作業の効率化が図られている。
しかしながら、実演的なVL推論トレーニングデータセットの構築の基礎となる原則は、いまだに理解されていない。
本研究では,データキュレーション手法を導入し,VL推論能力への影響について検討する。
我々は、コンテキスト(イメージと質問ペア)ソースの効果を分析し、対象とするデータ介入を実装し、画像、質問、チェーン・オブ・思想(CoT)ソリューションのスケールアップを探る。
私たちの発見は
(a)VLMの性能に大きな影響を与えるコンテキストソース戦略。
ロ 画像キャプションからの補助信号等の介入、テキストのみによる推論の実施等により、実質的な利得が得られること。
(c) すべてのデータ次元(例えば、画像毎のユニークな質問、画像検索ペア毎のユニークなCoT)のスケーリングは、推論能力を一貫して改善します。
これらの知見に触発されたHoneyBeeは、大規模で高品質なCoT推論データセットであり、350万のイメージ検索ペアからなる2.5万のサンプルがある。
ハニービーで訓練されたVLMは、モデルサイズで最先端のモデルより優れていた。
例えば、3Bパラメータを持つハニービー訓練VLMは、MathVerseのSOTAモデルとベースモデルをそれぞれ7.8%、24.8%上回っている。
さらに,精度を犠牲にすることなく,デコードコストを73%削減するテストタイムスケーリング戦略を提案する。
全体として、この研究はVL推論データセットキュレーション研究の改善戦略を示す。
関連論文リスト
- When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs [4.296395082987112]
L-VLM(Large Vision-Language Models)は、様々な視覚や言語タスクにおいて顕著な性能を示す。
小型ビジョンランゲージモデル (Small Vision-Language Models, S-VLM) は効率性を提供するが、より大きなモデルに比べて大きな性能差がある。
本稿では,S-VLM を体系的に改善する新しいフレームワークである Model Parity Aligner (MPA) を紹介する。
論文 参考訳(メタデータ) (2025-09-20T11:12:23Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。