論文の概要: MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions
- arxiv url: http://arxiv.org/abs/2503.09499v1
- Date: Wed, 12 Mar 2025 16:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:58.208301
- Title: MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions
- Title(参考訳): MindGYM: 自己整合型質問によるビジョンランゲージモデルの強化
- Authors: Zhe Xu, Daoyuan Chen, Zhenqing Ling, Yaliang Li, Ying Shen,
- Abstract要約: MindGYMは、大規模な視覚言語モデル(VLM)を強化するためのフレームワークである。
MindGYMは高いデータ効率(例えば、400サンプルのMathVision-Miniでは+16%のゲイン)、計算効率(トレーニングと推論コストの削減)、タスク間の堅牢な一般化を実現している。
- 参考スコア(独自算出の注目度): 37.60935581067836
- License:
- Abstract: Large vision-language models (VLMs) face challenges in achieving robust, transferable reasoning abilities due to reliance on labor-intensive manual instruction datasets or computationally expensive self-supervised methods. To address these issues, we introduce MindGYM, a framework that enhances VLMs through synthetic self-challenging questions, consisting of three stages: (1) Seed Single-Hop Question Synthesis, generating cognitive questions across textual (e.g., logical deduction) and multimodal contexts (e.g., diagram-based queries) spanning eight semantic areas like ethical analysis; (2) Challenging Multi-Hop Question Synthesis, combining seed questions via diverse principles like bridging, visual-textual alignment, to create multi-step problems demanding deeper reasoning; and (3) Thinking-Induced Curriculum Fine-Tuning, a structured pipeline that progressively trains the model from scaffolded reasoning to standalone inference. By leveraging the model's self-synthesis capability, MindGYM achieves high data efficiency (e.g., +16% gains on MathVision-Mini with only 400 samples), computational efficiency (reducing both training and inference costs), and robust generalization across tasks. Extensive evaluations on seven benchmarks demonstrate superior performance over strong baselines, with notable improvements (+15.77% win rates) in reasoning depth and breadth validated via GPT-based scoring. MindGYM underscores the viability of self-challenging for refining VLM capabilities while minimizing human intervention and resource demands. Code and data are released to advance multimodal reasoning research.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、労働集約的な手動指導データセットや計算コストのかかる自己管理手法に依存するため、堅牢で伝達可能な推論能力を達成する上で、課題に直面している。
これらの課題に対処するために,我々は,(1)単座質問合成(Seed Single-Hop Question Synthesis)と(例:論理的推論)と(例:図に基づくクエリ)という8つの意味領域にまたがる認知的質問を生成するMindGYM,(2)ブリッジング,視覚的テキストアライメントなどの多様な原則によるシード質問を結合して,より深い推論を必要とする多段階問題を生成するMindGYM,(3)より深い推論を必要とする多段階問題を生成するThinking-induced Curriculum Fine-Tuning,の3段階からなる,VLMを強化するフレームワークを紹介した。
モデルの自己合成能力を活用することで、MindGYMは高いデータ効率(例えば、400サンプルのMathVision-Miniでは+16%のゲイン)、計算効率(トレーニングと推論コストの削減)、タスク間の堅牢な一般化を実現している。
7つのベンチマークの大規模な評価は、強いベースラインよりも優れたパフォーマンスを示し、GPTベースのスコアリングによる深さと幅の検証において顕著な改善(+15.77%の勝利率)がなされた。
MindGYMは、人間の介入とリソース要求を最小限に抑えつつ、VLM能力を精錬する自己修復の可能性を強調している。
コードとデータはマルチモーダル推論研究を進めるためにリリースされている。
関連論文リスト
- LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Self-Convinced Prompting: Few-Shot Question Answering with Repeated
Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。
我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文 参考訳(メタデータ) (2023-10-08T06:36:26Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。