論文の概要: Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
- arxiv url: http://arxiv.org/abs/2511.05705v1
- Date: Fri, 07 Nov 2025 20:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.537225
- Title: Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
- Title(参考訳): 長方形思考:構成的視覚共鳴鎖を大規模に蒸留する
- Authors: David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi,
- Abstract要約: 多様なスキルと複雑さのレベルにまたがる新しい推論データ生成フレームワークを,100万以上の高品質な合成視覚中心の質問で紹介する。
データ上のQwen2.5-VL-7Bの微調整は、すべての評価されたビジョン中心のベンチマークにおいて、すべてのオープンデータベースラインを上回ります。
- 参考スコア(独自算出の注目度): 70.23466957404891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in multimodal reasoning has been driven largely by undisclosed datasets and proprietary data synthesis recipes, leaving open questions about how to systematically build large-scale, vision-centric reasoning datasets, particularly for tasks that go beyond visual math. In this work, we introduce a new reasoning data generation framework spanning diverse skills and levels of complexity with over 1M high-quality synthetic vision-centric questions. The dataset also includes preference data and instruction prompts supporting both offline and online RL. Our synthesis framework proceeds in two stages: (1) scale; and (2) complexity. Reasoning traces are then synthesized through a two-stage process that leverages VLMs and reasoning LLMs, producing CoT traces for VLMs that capture the richness and diverse cognitive behaviors found in frontier reasoning models. Remarkably, we show that finetuning Qwen2.5-VL-7B on our data outperforms all open-data baselines across all evaluated vision-centric benchmarks, and even surpasses strong closed-data models such as MiMo-VL-7B-RL on V* Bench, CV-Bench and MMStar-V. Perhaps most surprising, despite being entirely vision-centric, our data transfers positively to text-only reasoning (MMLU-Pro) and audio reasoning (MMAU), demonstrating its effectiveness. Similarly, despite not containing videos or embodied visual data, we observe notable gains when evaluating on a single-evidence embodied QA benchmark (NiEH). Finally, we use our data to analyze the entire VLM post-training pipeline. Our empirical analysis highlights that (i) SFT on high-quality data with non-linear reasoning traces is essential for effective online RL, (ii) staged offline RL matches online RL's performance while reducing compute demands, and (iii) careful SFT on high quality data can substantially improve out-of-domain, cross-modality transfer.
- Abstract(参考訳): マルチモーダル推論の最近の進歩は、主に未公表のデータセットとプロプライエタリなデータ合成レシピによって推進され、大規模でビジョン中心の推論データセットを体系的に構築する方法に関するオープンな質問を残している。
本研究では,多種多様なスキルと複雑性レベルにまたがる新たな推論データ生成フレームワークを提案する。
データセットには、オフラインとオンラインのRLをサポートする好みのデータとインストラクションプロンプトも含まれている。
合成フレームワークは,(1)スケール,(2)複雑性の2段階で進行する。
次に、共鳴トレースは、VLMを活用してLLMを推論する2段階のプロセスを通して合成され、VLMのためのCoTトレースが生成され、フロンティア推論モデルで見られる豊かな認知行動と多様な認知行動がキャプチャされる。
また,V* Bench,CV-Bench,MMStar-VのMiMo-VL-7B-RLなど,強力なクローズドデータモデルにも勝っている。
おそらく最も驚きなのは、完全に視覚中心であるにもかかわらず、私たちのデータは、テキストのみの推論(MMLU-Pro)とオーディオ推論(MMAU)に肯定的に転送され、その効果を示すことです。
同様に、ビデオやエンボディド・ビジュアルデータを含まないにもかかわらず、シングルエビデンス・エンボディド・QAベンチマーク(NiEH)で評価すると顕著な利得が得られた。
最後に、私たちのデータを用いて、トレーニング後のパイプライン全体のVLMを分析します。
私たちの経験分析はそれを強調しています
一 オンラインRLの有効化には、非線形推論トレースを有する高品質データに対するSFTが不可欠である。
(ii)オフラインRLはオンラインRLのパフォーマンスに一致し、計算要求を低減させる。
三 高品質データに対する慎重なSFTは、領域外、モダリティ間転送を大幅に改善することができる。
関連論文リスト
- VERITAS: Leveraging Vision Priors and Expert Fusion to Improve Multimodal Data [3.638465758795032]
VERITASは、SFTデータ品質を向上させるために、ビジョン先行と複数の最先端LMMを統合するパイプラインである。
3つのLMMが元の答えを評価し、信頼性の高いスコアに統計的に融合した批判的合理性とスコアを提供する。
我々の批評家モデルは、最先端のLMMに匹敵する拡張能力を示しながら、より効率的である。
論文 参考訳(メタデータ) (2025-10-17T05:13:50Z) - Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - Fixing It in Post: A Comparative Study of LLM Post-Training Data Quality and Model Performance [29.94723846950853]
我々は、Tulu-3-SFT-MixとSmolTalkという2つの著名なオープントレーニング後のデータセットを総合的に分析した。
構造的および質的な類似点と2つのデータセットの違いを明らかにする統計を導出する。
我々の発見は、より効果的なトレーニング後のデータセットを構築するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-06-06T20:34:06Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。
本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文 参考訳(メタデータ) (2024-02-18T19:26:49Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。