論文の概要: MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions
- arxiv url: http://arxiv.org/abs/2503.09499v1
- Date: Wed, 12 Mar 2025 16:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.837613
- Title: MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions
- Title(参考訳): MindGYM: 自己整合型質問によるビジョンランゲージモデルの強化
- Authors: Zhe Xu, Daoyuan Chen, Zhenqing Ling, Yaliang Li, Ying Shen,
- Abstract要約: MindGYMは、大規模な視覚言語モデル(VLM)を強化するためのフレームワークである。
MindGYMは高いデータ効率(例えば、400サンプルのMathVision-Miniでは+16%のゲイン)、計算効率(トレーニングと推論コストの削減)、タスク間の堅牢な一般化を実現している。
- 参考スコア(独自算出の注目度): 37.60935581067836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) face challenges in achieving robust, transferable reasoning abilities due to reliance on labor-intensive manual instruction datasets or computationally expensive self-supervised methods. To address these issues, we introduce MindGYM, a framework that enhances VLMs through synthetic self-challenging questions, consisting of three stages: (1) Seed Single-Hop Question Synthesis, generating cognitive questions across textual (e.g., logical deduction) and multimodal contexts (e.g., diagram-based queries) spanning eight semantic areas like ethical analysis; (2) Challenging Multi-Hop Question Synthesis, combining seed questions via diverse principles like bridging, visual-textual alignment, to create multi-step problems demanding deeper reasoning; and (3) Thinking-Induced Curriculum Fine-Tuning, a structured pipeline that progressively trains the model from scaffolded reasoning to standalone inference. By leveraging the model's self-synthesis capability, MindGYM achieves high data efficiency (e.g., +16% gains on MathVision-Mini with only 400 samples), computational efficiency (reducing both training and inference costs), and robust generalization across tasks. Extensive evaluations on seven benchmarks demonstrate superior performance over strong baselines, with notable improvements (+15.77% win rates) in reasoning depth and breadth validated via GPT-based scoring. MindGYM underscores the viability of self-challenging for refining VLM capabilities while minimizing human intervention and resource demands. Code and data are released to advance multimodal reasoning research.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、労働集約的な手動指導データセットや計算コストのかかる自己管理手法に依存するため、堅牢で伝達可能な推論能力を達成する上で、課題に直面している。
これらの課題に対処するために,我々は,(1)単座質問合成(Seed Single-Hop Question Synthesis)と(例:論理的推論)と(例:図に基づくクエリ)という8つの意味領域にまたがる認知的質問を生成するMindGYM,(2)ブリッジング,視覚的テキストアライメントなどの多様な原則によるシード質問を結合して,より深い推論を必要とする多段階問題を生成するMindGYM,(3)より深い推論を必要とする多段階問題を生成するThinking-induced Curriculum Fine-Tuning,の3段階からなる,VLMを強化するフレームワークを紹介した。
モデルの自己合成能力を活用することで、MindGYMは高いデータ効率(例えば、400サンプルのMathVision-Miniでは+16%のゲイン)、計算効率(トレーニングと推論コストの削減)、タスク間の堅牢な一般化を実現している。
7つのベンチマークの大規模な評価は、強いベースラインよりも優れたパフォーマンスを示し、GPTベースのスコアリングによる深さと幅の検証において顕著な改善(+15.77%の勝利率)がなされた。
MindGYMは、人間の介入とリソース要求を最小限に抑えつつ、VLM能力を精錬する自己修復の可能性を強調している。
コードとデータはマルチモーダル推論研究を進めるためにリリースされている。
関連論文リスト
- Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Cognitive Paradigms for Evaluating VLMs on Visual Reasoning Task [3.2228025627337864]
機械の視覚的推論を改善するには、ビジョン・ランゲージ・モデル(VLM)がどのように複雑な視覚的パターンを処理し、解釈するかを深く理解する必要がある。
本研究は,自然画像に基づくボナード問題に基づくVLM推論を体系的に解析する,認知に着想を得た新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Self-Convinced Prompting: Few-Shot Question Answering with Repeated
Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。
我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文 参考訳(メタデータ) (2023-10-08T06:36:26Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。