論文の概要: Structured Over Scale: Learning Spatial Reasoning from Educational Video
- arxiv url: http://arxiv.org/abs/2601.23251v1
- Date: Fri, 30 Jan 2026 18:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.60634
- Title: Structured Over Scale: Learning Spatial Reasoning from Educational Video
- Title(参考訳): 構造化オーバースケール:教育ビデオから空間推論を学ぶ
- Authors: Bishoy Galoaa, Xiangyu Bai, Sarah Ostadabbas,
- Abstract要約: 我々は,Dora the Explorerの8シーズンから自動的に抽出された5,344の質問応答ペアのデータセットであるDoraVQAを紹介する。
我々はQwen2とQwen3の両方を微調整し、教育内容に固有の明確な正当性信号と構造化された推論トレースを活用する。
CVBenchではDoraVQAの8-14点,最先端の86.16%の改善を実現している。
- 参考スコア(独自算出の注目度): 6.358055069130984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) demonstrate impressive performance on standard video understanding benchmarks yet fail systematically on simple reasoning tasks that preschool children can solve, including counting, spatial reasoning, and compositional understanding. We hypothesize that the pedagogically-structured content of educational videos provides an ideal training signal for improving these capabilities. We introduce DoraVQA, a dataset of 5,344 question-answer pairs automatically extracted from 8 seasons of Dora the Explorer with precise timestamp alignment. Each episode follows a consistent \textit{context-question-pause-answer} structure that creates a self-contained learning environment analogous to interactive tutoring. We fine-tune both Qwen2 and Qwen3 using Group Relative Policy Optimization (GRPO), leveraging the clear correctness signals and structured reasoning traces inherent in educational content. Despite training exclusively on 38 hours of children's educational videos, our approach achieves improvements of 8-14 points on DoraVQA and state-of-the-art 86.16\% on CVBench, with strong transfer to Video-MME and NExT-QA, demonstrating effective generalization from narrow pedagogical content to broad multimodal understanding. Through cross-domain benchmarks, we show that VLMs can perform tasks that require robust reasoning learned from structured educational content, suggesting that content structure matters as much as content scale.
- Abstract(参考訳): 視覚言語モデル(VLM)は、標準的なビデオ理解のベンチマークにおいて印象的なパフォーマンスを示すが、幼児の単純な推論タスクでは、数え上げ、空間的推論、構成的理解など、体系的に失敗する。
教育ビデオの教育的構造化コンテンツは、これらの能力を改善するための理想的な訓練信号である、という仮説を立てる。
我々は,Dora the Explorerの8シーズンから抽出された5,344の質問応答ペアのデータセットであるDoraVQAを,正確なタイムスタンプアライメントで紹介する。
各エピソードは、対話型チューターに似た自己完結型学習環境を生成する、一貫した‘textit{context-question-pause-answer}構造に従う。
グループ相対政策最適化(GRPO)を用いてQwen2とQwen3の両方を微調整し、明確な正当性信号と、教育内容に固有の構造化された推論トレースを活用する。
子どもの教育ビデオの38時間に特化してトレーニングを行ったが,DoraVQAでは8~14点,CVBenchでは86.16点,ビデオMMEやNEXT-QAに強く移行し,狭い教育内容から広いマルチモーダル理解への効果的な一般化を実証した。
クロスドメインベンチマークにより、VLMは構造化された教育コンテンツから学習した堅牢な推論を必要とするタスクを実行できることを示し、コンテンツ構造がコンテンツ規模と同じくらい重要であることを示唆する。
関連論文リスト
- Less is More: Label-Guided Summarization of Procedural and Instructional Videos [21.13311741987469]
本稿では,3段階のフレームワークであるPRISMを提案する。
大規模言語モデル(LLM)を用いた適応型ビジュアルサンプリング、ラベル駆動アンカー、文脈検証について分析する。
提案手法はプロシージャとドメイン固有のビデオタスクにまたがって一般化し,セマンティックアライメントと精度の両面で高い性能を実現する。
論文 参考訳(メタデータ) (2026-01-18T03:41:48Z) - Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought [19.792159494513424]
ビデオ理解は、ビデオ分析からインタラクティブシステムまで、様々な用途に不可欠である。
視覚言語モデルの発展にもかかわらず、これらのモデルはしばしば、微妙で時間的な詳細を捉えるのに苦労する。
これを解決するために、ビデオ理解を強化するために設計された画期的なデータセットであるVideo-Thoughtを紹介した。
論文 参考訳(メタデータ) (2025-06-10T14:08:56Z) - InstructionBench: An Instructional Video Understanding Benchmark [14.71613140347162]
InstructionBenchはインストラクショナルビデオ理解ベンチマークである。
我々は、粗いイベントレベルと細かなオブジェクトレベルの推論の両方を評価するために、オープンエンドおよび複数選択形式のQ&Aペアを定式化する。
このベンチマークには、700本以上のビデオに5Kの質問が含まれている。
論文 参考訳(メタデータ) (2025-04-07T13:05:09Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。