論文の概要: ImageNet-Think-250K: A Large-Scale Synthetic Dataset for Multimodal Reasoning for Vision Language Models
- arxiv url: http://arxiv.org/abs/2510.01582v1
- Date: Thu, 02 Oct 2025 02:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.945156
- Title: ImageNet-Think-250K: A Large-Scale Synthetic Dataset for Multimodal Reasoning for Vision Language Models
- Title(参考訳): ImageNet-Think-250K:視覚言語モデルのためのマルチモーダル推論のための大規模合成データセット
- Authors: Krishna Teja Chitty-Venkata, Murali Emani,
- Abstract要約: ImageNet-Thinkは、視覚言語モデル(VLM)の開発を支援するために設計されたマルチモーダル推論データセットである。
データセットはImageNet21kデータセットから25万の画像に基づいて構築されており、構造化された思考トークンと対応する回答を提供する。
- 参考スコア(独自算出の注目度): 0.04817097673385532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop ImageNet-Think, a multimodal reasoning dataset designed to aid the development of Vision Language Models (VLMs) with explicit reasoning capabilities. Our dataset is built on 250,000 images from ImageNet21k dataset, providing structured thinking tokens and corresponding answers. Our synthetic dataset is generated by two state-of-the-art VLMs: GLM-4.1V-9B-Thinking and Kimi-VL-A3B-Thinking-2506. Each image is accompanied by two pairs of thinking-answer sequences, creating a resource for training and evaluating multimodal reasoning models. We capture the step-by-step reasoning process of VLMs and the final descriptive answers. Our goal with this dataset is to enable the development of more robust VLMs while contributing to the broader understanding of multimodal reasoning mechanisms. The dataset and evaluation benchmarks will be publicly available to aid research in reasoning/thinking multimodal VLMs.
- Abstract(参考訳): 我々は、視覚言語モデル(VLM)の開発を支援するために設計されたマルチモーダル推論データセットであるImageNet-Thinkを開発した。
データセットはImageNet21kデータセットから25万の画像に基づいて構築されており、構造化された思考トークンと対応する回答を提供する。
我々の合成データセットは、GLM-4.1V-9B-ThinkingとKim-VL-A3B-Thinking-2506の2つの最先端VLMによって生成される。
各画像には2組の思考問合せシーケンスが伴い、マルチモーダル推論モデルのトレーニングと評価のためのリソースを作成する。
VLMのステップバイステップ推論プロセスと最終記述的回答をキャプチャする。
このデータセットの目標は、より堅牢なVLMの開発を可能とし、マルチモーダル推論機構のより広範な理解に寄与することである。
データセットと評価ベンチマークは、マルチモーダルなVLMを推論/検討する研究を支援するために公開されている。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。
大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文 参考訳(メタデータ) (2025-05-20T13:47:40Z) - SMIR: Efficient Synthetic Data Pipeline To Improve Multi-Image Reasoning [26.986638043619397]
マルチイメージ推論のための合成データ生成パイプラインであるSMiRを紹介する。
我々は160Kの合成トレーニングサンプルを作成し、クローズドソースソリューションに代わる費用対効果を提供する。
SMiR-Benchは200種類の多彩な例からなるマルチイメージ推論ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T10:21:21Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。