VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition
Abstractの概要
VideoNetは、37のドメインにまたがる1,000種類のアクションを対象としたドメイン特化型行動認識ベンチマークであり、現代のビジョン言語モデル(VLM)の細粒度行動理解能力を評価するために設計されている。ベンチマークは5,000クリップで構成され、専門家による検証で約97%のラベル精度が示されており、多肢選択式、二値判定、少数ショット評価の設定が導入されている。実験の結果、現行のVLM、特にオープンウェイトモデルはドメイン特化型アクションにおいて苦戦し、人間と比較してインコンテキストビデオ例からの恩恵が限定的であることが明らかになった。著者らはまた、自動パイプラインを用いて約160,000クリップ(約50万件のビデオQAペアを生成)の大規模学習データセットを構築し、Molmo2-4Bモデルをファインチューニングすることで、ベースバージョンおよび評価対象の全オープン8BモデルをVideoNet上で大幅に上回る性能を達成した。
新規性
主な新規性は、37の多様なドメインにまたがるドメイン特化型行動認識を対象とした大規模ベンチマークの導入であり、従来の狭い範囲の細粒度または粗粒度データセットよりも幅広いカバレッジを提供している。また、このベンチマークとドメイン専門家に依存しない自動パイプラインを用いた、ドメイン特化型アクション向けの初の大規模自動収集学習データセットを組み合わせている点も独自性がある。
成果
多肢選択ベンチマークにおいて、最良のプロプライエタリモデル(Gemini 3.1 Pro)は69.9%の精度に達する一方、最良のオープンウェイト8Bモデル(Qwen3-VL-8B)は45.0%にとどまった。ファインチューニングされたMolmo2-4Bは多肢選択で53.5%(ベースから+11.5ポイント)、二値判定0-shotで66.6%(ベースから+11.3ポイント)を達成し、評価対象の全オープン8Bモデルを上回った。少数ショットの視覚例は人間にはモデルよりもはるかに有効であり、人間は3-shot設定で13.6ポイント向上したのに対し、モデルの平均的な改善は約3ポイントにとどまり、一部のモデル(例:Gemini 3.1 Pro)は性能が低下した。
論文の注目点
- VideoNetは37ドメインから1,000種類のアクションを、ハードネガティブと専門家検証済みラベル(約97%の精度)を含む厳選されたクリップでベンチマーク化している。
- 現行のVLMはドメイン特化型行動理解が限定的で、インコンテキストビデオ例の活用も弱く、オープンモデルはプロプライエタリシステムよりも大幅に劣り、人間の少数ショット学習による改善幅にも遠く及ばない。
- 自動収集されたドメイン特化型アクションデータ(厳格なフィルタリングを施した162Kクリップ)での学習は、テスト時の少数ショット例に依存するよりも効果的であり、ファインチューニングされた4Bモデルがベンチマーク上で評価対象の全オープン8Bモデルを上回ることを可能にした。