論文の概要: DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2602.16742v1
- Date: Wed, 18 Feb 2026 01:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.262592
- Title: DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning
- Title(参考訳): DeepVision-103K:マルチモーダル推論のための視覚的ディバース、広帯域化、検証可能な数学的データセット
- Authors: Haoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、LMM(Large Multimodal Models)の視覚反射と推論能力の向上に有効であることが示されている。
textbfDeepVision-103Kは、多様なK12数学的トピック、広範な知識ポイント、リッチビジュアル要素をカバーするRLVRトレーニングのための包括的データセットである。
DeepVisionで訓練されたモデルは、マルチモーダルな数学的ベンチマークで強力な性能を達成し、一般的なマルチモーダルな推論タスクに効果的に一般化する。
- 参考スコア(独自算出の注目度): 21.055712962530716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has been shown effective in enhancing the visual reflection and reasoning capabilities of Large Multimodal Models (LMMs). However, existing datasets are predominantly derived from either small-scale manual construction or recombination of prior resources, which limits data diversity and coverage, thereby constraining further gains in model performance. To this end, we introduce \textbf{DeepVision-103K}, a comprehensive dataset for RLVR training that covers diverse K12 mathematical topics, extensive knowledge points, and rich visual elements. Models trained on DeepVision achieve strong performance on multimodal mathematical benchmarks, and generalize effectively to general multimodal reasoning tasks. Further analysis reveals enhanced visual perception, reflection and reasoning capabilities in trained models, validating DeepVision's effectiveness for advancing multimodal reasoning. Data: \href{https://huggingface.co/datasets/skylenage/DeepVision-103K}{this url}.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,LMM(Large Multimodal Models)の視覚反射と推論能力の向上に有効であることが示されている。
しかし、既存のデータセットは主に、データの多様性とカバレッジを制限し、モデル性能のさらなる向上を制限している、小規模のマニュアル構築または以前のリソースの再結合から派生している。
この目的のために,多様なK12数学的トピック,広範な知識ポイント,豊富な視覚要素を網羅するRLVRトレーニング用包括的データセットである \textbf{DeepVision-103K} を紹介する。
DeepVisionで訓練されたモデルは、マルチモーダルな数学的ベンチマークで強力な性能を達成し、一般的なマルチモーダルな推論タスクに効果的に一般化する。
さらなる分析により、訓練されたモデルにおける視覚知覚、反射、推論能力が向上し、マルチモーダル推論の進歩に対するDeepVisionの有効性が検証された。
データ: \href{https://huggingface.co/datasets/skylenage/DeepVision-103K}{this url}。
関連論文リスト
- Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning [17.459985667824807]
DeepSeek-R1のようなテキストベースの推論モデルの成功に基づいて、これらの機能をマルチモーダル推論に拡張することは大きな約束である。
本稿では,強化学習を通じて汎用的な視覚言語推論を実現する方法について述べる。
論文 参考訳(メタデータ) (2025-06-09T16:20:54Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。