論文の概要: Video Models Start to Solve Chess, Maze, Sudoku, Mental Rotation, and Raven' Matrices
- arxiv url: http://arxiv.org/abs/2512.05969v1
- Date: Sun, 02 Nov 2025 01:22:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.394718
- Title: Video Models Start to Solve Chess, Maze, Sudoku, Mental Rotation, and Raven' Matrices
- Title(参考訳): チェス、迷路、スドク、精神回転、レイブンのマトリクスを解き明かすビデオモデル
- Authors: Hokin Deng,
- Abstract要約: チェス、迷路、スドク、メンタルローテーション、レイブンの行列などのタスクをテストし、ソラ-2のようなモデルが成功率の60%を達成している。
すでに39のモデルが利用可能で、このパラダイムをサポートし、簡単にスケーリングできるコードフレームワークを構築しています。
- 参考スコア(独自算出の注目度): 0.09229852843814061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that video generation models could reason now. Testing on tasks such as chess, maze, Sudoku, mental rotation, and Raven's Matrices, leading models such as Sora-2 achieve sixty percent success rates. We establish a robust experimental paradigm centered on the "Task Pair" design. We build a code framework, with 39 models available already, that supports this paradigm and allows for easy scaling - users can add models and tasks efficiently. We show our automated evaluation strongly correlates with human judgment, and therefore this paradigm is highly scalable. We see an opportunity, given the availability of our paradigm, to do reinforcement learning for improving reasoning in video models. You could checkout all of our raw $\href{https://grow-ai-like-a-child.com/video-reason/}{results}$ and our $\href{https://github.com/hokindeng/VMEvalKit}{VMEvalKit}$ codebase.
- Abstract(参考訳): ビデオ生成モデルは今や理にかなっているかもしれない。
チェス、迷路、スドク、メンタルローテーション、レイブンの行列などのタスクをテストし、ソラ-2のようなモデルが成功率の60%を達成している。
我々は,「タスクペア」設計を中心に,堅牢な実験パラダイムを構築した。
39のモデルがすでに利用可能で、このパラダイムをサポートし、簡単にスケーリングできるコードフレームワークを構築しています。
自動評価は人的判断と強く相関していることを示し,このパラダイムは高度にスケーラブルである。
我々は、我々のパラダイムが利用可能であることを考えると、ビデオモデルにおける推論を改善するための強化学習を行う機会を見出している。
生の $\href{https://grow-ai-like-a-child.com/video-reason/}{results}$ と $\href{https://github.com/hokindeng/VMEvalKit}{VMEvalKit}$ コードベースをチェックアウトできます。
関連論文リスト
- Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm [73.4888880112019]
シンキング・ウィズ・ビデオ」パラダイムは、視覚的・テキスト的推論を統合的時間的枠組みで橋渡しする。
Sora-2はビジョン中心のタスクの有能な推論者として確立されている。
テキスト中心のタスクでは、Sora-2はMATHで92%、MMMUで75.53%の精度を達成している。
論文 参考訳(メタデータ) (2025-11-06T17:25:23Z) - Smaller Models, Smarter Rewards: A Two-Sided Approach to Process and Outcome Rewards [40.23960862004138]
本稿では,最先端の小型言語モデルが有用報酬モデルに変換できるかどうかを考察する。
我々はAPPS符号化チャレンジベンチマークから得られた正当性ラベル付きコードサンプルのデータセットを構築した。
この批判を用いて、複数世代にわたる最も正確なコードの検索能力を20%以上改善する。
論文 参考訳(メタデータ) (2025-10-27T07:36:41Z) - What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。
このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。
制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文 参考訳(メタデータ) (2025-03-06T17:59:29Z) - Scaling 4D Representations [77.85462796134455]
ビデオからの純粋な自己教師型学習のために、スケーリングはまだ説得力を持って実証されていない。
本稿では,非意味的視覚課題における自己指導型学習の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-12-19T18:59:51Z) - RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation [39.44358155600282]
本稿では,ロボット推論とアクション機能の両方を提供する,エンドツーエンドのロボットVLAモデルであるRoboMambaを紹介する。
具体的には、視覚エンコーダをMambaと統合し、コトレーニングによる言語埋め込みと視覚トークンを整合させる。
一度RoboMambaが十分な推論能力を持つと、最小限の微調整パラメータで操作スキルを得ることができる。
論文 参考訳(メタデータ) (2024-06-06T17:59:47Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。