LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence
Abstractの概要
LLaVA-OneVision-2は、動画理解、時間的グラウンディング、空間的グラウンディング、および操作関連の推論にわたる統合的な知覚を目指した8Bクラスのマルチモーダルモデルである。その中心的な設計はコーデックストリームのトークン化であり、一様にサンプリングされたフレームにのみ依存するのではなく、圧縮動画のビットコスト動態と動きの残差の手がかりを使用して、時間的および空間的に視覚トークンを適応的に割り当てる。このモデルは、継承された画像テキストと指示データに、約800万のキャプション付き動画サンプルと400万サンプルの空間コーパスを組み合わせた4段階のレシピで訓練されている。また、既存の動画ベンチマークでは十分に評価されていない能力を測定するために、密集した反復的な動きのきめ細かい時間的局所化を行うためのベンチマークであるJumpScoreを導入している。
新規性
本論文の主な新規性は、マルチモーダルモデリングのためのコーデックに適合した入力パイプラインである。すなわち、圧縮動画を連続したビットコストのストリームとして扱い、適応的な時間的グループ化と顕著性に基づく空間トークン選択をコンパクトなキャンバスにパッキングする。また、高頻度の反復的な動きにおけるサイクルレベルの時間的グラウンディングに焦点を当てた新しいベンチマークとして、JumpScoreを提供している点も新規である。
成果
JumpScoreにおいて、LLaVA-OneVision-2-8Bは74.9 mAPを達成し(Qwen3-VL-8Bは30.1 mAP)、視覚トークンの予算を統一した条件下では、コーデックストリーム入力により時間的グラウンディングがフレームサンプリングよりも平均9.7ポイント向上した。本モデルは、Qwen3-VL-8Bと比較して、18の動画タスクで平均4.3ポイント、11の空間ベンチマークで平均5.3ポイント、4つのトラッキングタスクで15.6 J&Fポイントの改善を報告している。画像およびドキュメントのベンチマークにおいても依然として競争力を保っているが、OCRやドキュメント中心のタスクに特化しているわけではないと論文では言及されている。
論文の注目点
- コーデックストリームのトークン化は、圧縮動画のビットコストと動きの残差信号を使用して視覚的証拠を適応的に割り当て、固定GOPや均一なフレームサンプリングよりも安定した長時間の動画圧縮を可能にする。
- 訓練レシピは、約800万の再キャプションされた動画サンプルと400万サンプルの2D/3D空間コーパスを含む大規模なオープン監督データを組み合わせており、特に最後の長尺動画学習ステージでコーデックストリーム訓練が導入されている。
- 実証的には、特に反復運動の局所化のために新しく導入されたJumpScoreベンチマークにおいて、時間的グラウンディング、空間的推論、およびトラッキングの分野で最も強力な性能向上が報告されている。