論文の概要: Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
- arxiv url: http://arxiv.org/abs/2601.10611v1
- Date: Thu, 15 Jan 2026 17:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.246928
- Title: Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding
- Title(参考訳): Molmo2:映像理解とグラウンド化による視覚言語モデルのオープンウェイトとデータ
- Authors: Christopher Clark, Jieyu Zhang, Zixian Ma, Jae Sung Park, Mohammadreza Salehi, Rohun Tripathi, Sangho Lee, Zhongzheng Ren, Chris Dongjoo Kim, Yinuo Yang, Vincent Shao, Yue Yang, Weikai Huang, Ziqi Gao, Taira Anderson, Jianrui Zhang, Jitesh Jain, George Stoica, Winson Han, Ali Farhadi, Ranjay Krishna,
- Abstract要約: Molmo2はビデオ言語モデル(VLM)の新たなファミリーであり、オープンソースモデルの中でも最先端の製品である。
単一画像、マルチイメージ、ビデオタスクにおけるポイント駆動グラウンドリングにおいて、例外的な新機能を示す。
私たちの最高の8Bモデルは、ショートビデオ、カウント、キャプションでオープンウェイトとデータモデルのクラスで他よりも優れており、ロングビデオでは競争力があります。
- 参考スコア(独自算出の注目度): 73.52241177491655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's strongest video-language models (VLMs) remain proprietary. The strongest open-weight models either rely on synthetic data from proprietary VLMs, effectively distilling from them, or do not disclose their training data or recipe. As a result, the open-source community lacks the foundations needed to improve on the state-of-the-art video (and image) language models. Crucially, many downstream applications require more than just high-level video understanding; they require grounding -- either by pointing or by tracking in pixels. Even proprietary models lack this capability. We present Molmo2, a new family of VLMs that are state-of-the-art among open-source models and demonstrate exceptional new capabilities in point-driven grounding in single image, multi-image, and video tasks. Our key contribution is a collection of 7 new video datasets and 2 multi-image datasets, including a dataset of highly detailed video captions for pre-training, a free-form video Q&A dataset for fine-tuning, a new object tracking dataset with complex queries, and an innovative new video pointing dataset, all collected without the use of closed VLMs. We also present a training recipe for this data utilizing an efficient packing and message-tree encoding scheme, and show bi-directional attention on vision tokens and a novel token-weight strategy improves performance. Our best-in-class 8B model outperforms others in the class of open weight and data models on short videos, counting, and captioning, and is competitive on long-videos. On video-grounding Molmo2 significantly outperforms existing open-weight models like Qwen3-VL (35.5 vs 29.6 accuracy on video counting) and surpasses proprietary models like Gemini 3 Pro on some tasks (38.4 vs 20.0 F1 on video pointing and 56.2 vs 41.1 J&F on video tracking).
- Abstract(参考訳): 現在の最強のビデオ言語モデル(VLM)は依然としてプロプライエタリである。
最強のオープンウェイトモデルは、プロプライエタリなVLMからの合成データに依存し、効果的に蒸留するか、トレーニングデータやレシピを開示しない。
その結果、オープンソースコミュニティは最先端のビデオ(および画像)言語モデルを改善するために必要な基盤を欠いている。
重要なのは、多くのダウンストリームアプリケーションは、単なるハイレベルなビデオ理解以上のものを必要とします。
プロプライエタリなモデルでさえ、この機能を欠いている。
我々は、オープンソースのモデルの中で最先端のVLMの新たなファミリーであるMomo2を紹介し、単一画像、マルチイメージ、ビデオタスクにおけるポイント駆動グラウンドディングにおいて、例外的な新機能を示す。
私たちの重要なコントリビューションは、7つの新しいビデオデータセットと2つのマルチイメージデータセットのコレクションです。その中には、事前トレーニング用の高精細なビデオキャプションのデータセット、微調整のための無料のビデオQ&Aデータセット、複雑なクエリを備えた新しいオブジェクト追跡データセット、革新的なビデオポインティングデータセットが含まれています。
また、効率的なパッキングおよびメッセージツリー符号化方式を用いて、このデータのためのトレーニングレシピを提案し、視覚トークンに対する双方向の注意を示すとともに、新しいトークンウェイト戦略により性能が向上することを示す。
私たちの最高の8Bモデルは、ショートビデオ、カウント、キャプションでオープンウェイトとデータモデルのクラスで他よりも優れており、ロングビデオでは競争力があります。
ビデオグラウンドでは、Momo2はQwen3-VL(35.5対29.6対ビデオカウント)のような既存のオープンウェイトモデルよりも優れており、一部のタスクではGemini 3 Pro(38.4対20.0F1)、ビデオポインティングでは56.2対41.1J&F)よりも優れている。
関連論文リスト
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
画像と映像の理解において透過的な研究を行うために,完全オープンかつ再現可能なフレームワークで知覚モデル(PLM)を構築することを研究する。
モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
これらのギャップを埋めるために、我々は、挑戦的なビデオ理解タスクを評価するためのスイートであるPLM-VideoBenchをリリースした。
論文 参考訳(メタデータ) (2025-04-17T17:59:56Z) - Pretrained Image-Text Models are Secretly Video Captioners [38.66202065611397]
画像ベースモデルにより、複数の特殊映像キャプションシステムよりも優れた性能が得られることが判明した。
適応モデルでは,MSRVTTとMSVDでは2位,VATEXでは3位であった。
資源最適化の観点から、このビデオキャプション研究は、モデルスケールの最適化、データ効率の最大化、強化学習の導入の3つの基本的な要素に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-19T01:53:03Z) - TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler [10.92767902813594]
約3.6Bパラメータを持つ軽量で強力なビデオ理解モデルであるTinyLLaVA-Videoを紹介した。
我々の設計の基盤はビデオレベルのグループ再サンプリングであり、ビデオレベルの視覚トークン数を著しく削減し、制御する新しいメカニズムである。
TinyLLaVA-Videoは例外的な効率を示し、8A100-40GのGPUで1日間のトレーニングしか必要としない。
論文 参考訳(メタデータ) (2025-01-26T13:10:12Z) - Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models [146.85788712792177]
Molmoは視覚言語モデル(VLM)の新たなファミリーであり、オープンネスのクラスにおける最先端技術である。
我々の最高のクラス72Bモデルは、オープンウェイトとデータモデルのクラスで他よりも優れています。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。