論文の概要: Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
- arxiv url: http://arxiv.org/abs/2511.04570v1
- Date: Thu, 06 Nov 2025 17:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.531125
- Title: Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
- Title(参考訳): ビデオで考える:ビデオ生成はマルチモーダル推論パラダイムを実証する
- Authors: Jingqi Tong, Yurong Mou, Hangcheng Li, Mingzhe Li, Yongzhuo Yang, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao, Xuanjing Huang, Xipeng Qiu,
- Abstract要約: シンキング・ウィズ・ビデオ」パラダイムは、視覚的・テキスト的推論を統合的時間的枠組みで橋渡しする。
Sora-2はビジョン中心のタスクの有能な推論者として確立されている。
テキスト中心のタスクでは、Sora-2はMATHで92%、MMMUで75.53%の精度を達成している。
- 参考スコア(独自算出の注目度): 73.4888880112019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Thinking with Text" and "Thinking with Images" paradigm significantly improve the reasoning ability of large language models (LLMs) and Vision Language Models (VLMs). However, these paradigms have inherent limitations. (1) Images capture only single moments and fail to represent dynamic processes or continuous changes, and (2) The separation of text and vision as distinct modalities, hindering unified multimodal understanding and generation. To overcome these limitations, we introduce "Thinking with Video", a new paradigm that leverages video generation models, such as Sora-2, to bridge visual and textual reasoning in a unified temporal framework. To support this exploration, we developed the Video Thinking Benchmark (VideoThinkBench). VideoThinkBench encompasses two task categories: (1) vision-centric tasks (e.g., Eyeballing Puzzles), and (2) text-centric tasks (e.g., subsets of GSM8K, MMMU). Our evaluation establishes Sora-2 as a capable reasoner. On vision-centric tasks, Sora-2 is generally comparable to state-of-the-art (SOTA) VLMs, and even surpasses VLMs on several tasks, such as Eyeballing Games. On text-centric tasks, Sora-2 achieves 92% accuracy on MATH, and 75.53% accuracy on MMMU. Furthermore, we systematically analyse the source of these abilities. We also find that self-consistency and in-context learning can improve Sora-2's performance. In summary, our findings demonstrate that the video generation model is the potential unified multimodal understanding and generation model, positions "thinking with video" as a unified multimodal reasoning paradigm.
- Abstract(参考訳): 大規模言語モデル (LLM) と視覚言語モデル (VLM) の推論能力は, 「テキストによるシンキング」 と 「画像によるシンキング」 のパラダイムにより著しく向上した。
しかし、これらのパラダイムには固有の制限がある。
1) 画像は単一モーメントのみを捉え, 動的プロセスや連続的な変化を表現できない。(2) テキストと視覚の分離は, 統一されたマルチモーダル理解と生成を妨げる。
このような制約を克服するために,Sora-2のようなビデオ生成モデルを活用する新しいパラダイムである"Thinking with Video"を導入し,視覚的およびテキスト的推論を統合的時間的枠組みで橋渡しする。
この探索を支援するために、ビデオシンキングベンチマーク(VideoThinkBench)を開発した。
VideoThinkBenchは、(1)視覚中心タスク(例:Eyeballing Puzzles)と(2)テキスト中心タスク(例:GSM8Kのサブセット、MMMU)の2つのタスクカテゴリを含んでいる。
我々の評価はSora-2を有能な推論者として確立する。
ビジョン中心のタスクでは、Sora-2は一般的に最先端(SOTA)のVLMに匹敵し、Eyeballing GamesのようないくつかのタスクでVLMを超えている。
テキスト中心のタスクでは、Sora-2はMATHで92%、MMMUで75.53%の精度を達成している。
さらに,これらの能力の源泉を系統的に分析する。
また,自己整合性と文脈内学習により,Sora-2の性能が向上することが確認された。
要約すると、ビデオ生成モデルは、統合マルチモーダルな理解と生成モデルであり、統合マルチモーダルな推論パラダイムとしての「ビデオによる思考」の位置であることを示す。
関連論文リスト
- MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models [29.7077721906364]
MathRealは2000の数学的質問と、ハンドヘルドモバイルデバイスが実際のシナリオで捉えた画像からなるデータセットである。
MathRealは5つの中核的な知識と能力のカテゴリにまたがっており、3つの質問タイプを含み、3つの困難レベルに分けられる。
実世界のシナリオにおける最先端MLLMのマルチモーダル数学的推論能力を評価する。
論文 参考訳(メタデータ) (2025-08-08T04:39:16Z) - MOMENTS: A Comprehensive Multimodal Benchmark for Theory of Mind [41.188841829937466]
MoMentS (Multimodal Mental States) は、社会的にインテリジェントなマルチモーダルエージェントを構築するためのベンチマークである。
MoMentSには、7つの異なるToMカテゴリにまたがる2300以上の多重選択質問が含まれている。
いくつかのMLLMを評価し、ビジョンは一般的に性能を改善するが、モデルがそれを効果的に統合するのに苦戦していることを発見した。
論文 参考訳(メタデータ) (2025-07-06T15:06:30Z) - All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark [70.92907745196153]
MAIAはビデオにおける視覚言語モデルの推論能力の詳細な調査のためのベンチマークである。
視覚入力の役割を強調することによって、言語と視覚関係を歪めようとする12の推論カテゴリを考察する。
MAIAは、そのデザイン、推論カテゴリ、使用するメトリクス、およびビデオの言語と文化に関して、他の利用可能なビデオベンチマークとは異なる。
論文 参考訳(メタデータ) (2025-02-24T09:25:51Z) - Forgotten Polygons: Multimodal Large Language Models are Shape-Blind [55.65083505741497]
視覚言語タスクの性能は高いが、Multimodal Large Language Models (MLLM) は数学的な問題解決に苦戦している。
以上の結果から,正多角形同定において,トップモデルが50%未満の精度で達成されるなど,形状認識の根本的な欠点が明らかとなった。
図中の視覚的アノテーションを明示的に参照することにより、多段階の数学的推論を強化する。
論文 参考訳(メタデータ) (2025-02-21T22:04:09Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。