論文の概要: A Very Big Video Reasoning Suite
- arxiv url: http://arxiv.org/abs/2602.20159v2
- Date: Tue, 24 Feb 2026 17:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 15:32:50.761081
- Title: A Very Big Video Reasoning Suite
- Title(参考訳): 巨大ビデオレソナリング・スイート
- Authors: Maijunxian Wang, Ruisi Wang, Juyi Lin, Ran Ji, Thaddäus Wiedemer, Qingying Gao, Dezhi Luo, Yaoyao Qian, Lianyu Huang, Zelong Hong, Jiahui Ge, Qianli Ma, Hang He, Yifan Zhou, Lingzi Guo, Lantao Mei, Jiachen Li, Hanwen Xing, Tianqi Zhao, Fengyuan Yu, Weihang Xiao, Yizheng Jiao, Jianheng Hou, Danyang Zhang, Pengcheng Xu, Boyang Zhong, Zehong Zhao, Gaoyun Fang, John Kitaoka, Yile Xu, Hua Xu, Kenton Blacutt, Tin Nguyen, Siyuan Song, Haoran Sun, Shaoyue Wen, Linyang He, Runming Wang, Yanzhi Wang, Mengyue Yang, Ziqiao Ma, Raphaël Millière, Freda Shi, Nuno Vasconcelos, Daniel Khashabi, Alan Yuille, Yilun Du, Ziming Liu, Bo Li, Dahua Lin, Ziwei Liu, Vikash Kumar, Yijiang Li, Lei Yang, Zhongang Cai, Hokin Deng,
- Abstract要約: ビデオモデルの急速な普及は視覚的品質を捉えており、その推論能力は未解明のままである。
Very Big Video Reasoning(VBVR)データセットは、200のキュレートされた推論タスクにまたがる、前例のない大規模なリソースである。
VBVR-Benchは、ルールベースのヒューマンアライメントスコアラーによるモデルベースの判断を超えて、検証可能な評価フレームワークである。
- 参考スコア(独自算出の注目度): 155.70016888896927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid progress in video models has largely focused on visual quality, leaving their reasoning capabilities underexplored. Video reasoning grounds intelligence in spatiotemporally consistent visual environments that go beyond what text can naturally capture, enabling intuitive reasoning over spatiotemporal structure such as continuity, interaction, and causality. However, systematically studying video reasoning and its scaling behavior is hindered by the lack of large-scale training data. To address this gap, we introduce the Very Big Video Reasoning (VBVR) Dataset, an unprecedentedly large-scale resource spanning 200 curated reasoning tasks following a principled taxonomy and over one million video clips, approximately three orders of magnitude larger than existing datasets. We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities. Leveraging the VBVR suite, we conduct one of the first large-scale scaling studies of video reasoning and observe early signs of emergent generalization to unseen reasoning tasks. Together, VBVR lays a foundation for the next stage of research in generalizable video reasoning. The data, benchmark toolkit, and models are publicly available at https://video-reason.com/ .
- Abstract(参考訳): ビデオモデルの急速な進歩は、主に視覚的品質に焦点を合わせており、彼らの推論能力は過小評価されている。
ビデオ推論は、テキストが自然にキャプチャできるものを超えて、時空間的に一貫した視覚環境においてインテリジェンスを基礎としており、連続性、相互作用、因果関係といった時空間構造に対する直感的な推論を可能にする。
しかし,ビデオ推論とそのスケーリング動作を体系的に研究することは,大規模なトレーニングデータの欠如によって妨げられる。
このギャップに対処するため、私たちはVery Big Video Reasoning (VBVR) Datasetを導入しました。
VBVR-Benchは、ルールベースの人手によるスコアラーを組み込むことで、モデルに基づく判断を超えて、再現可能かつ解釈可能なビデオ推論能力の診断を可能にする検証可能な評価フレームワークである。
VBVRスイートを活用することで、ビデオ推論の大規模なスケールスタディを初めて実施し、未確認の推論タスクに対する創発的一般化の早期兆候を観察する。
共同でVBVRは、一般化可能なビデオ推論の研究の次の段階の基礎を築いている。
データ、ベンチマークツールキット、モデルはhttps://video-reason.com/で公開されている。
関連論文リスト
- Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。
このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。
V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文 参考訳(メタデータ) (2025-10-23T14:05:56Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models [29.706347050700867]
ビデオベース長周期因果推論(VCRBench)という新しいベンチマークを導入する。
VCRBenchは、LVLM(Large Video Language Model)が特定の目標を達成するために必要なイベントを特定し、推論し、正しくシーケンスできるかどうかをテストする。
本稿では,ビデオに基づく因果推論を,ビデオ認識と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
論文 参考訳(メタデータ) (2025-05-13T11:35:58Z) - TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning [7.818698554631196]
我々は,小規模モデルの推論能力の探索は,限られた計算資源を持つ研究者にとって重要な課題であると主張している。
本稿では,小型ビデオ推論モデルTinyLLaVA-Video-R1を提案する。
論文 参考訳(メタデータ) (2025-04-13T16:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。