論文の概要: Do multimodal models imagine electric sheep?
- arxiv url: http://arxiv.org/abs/2605.09693v1
- Date: Sun, 10 May 2026 18:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.375046
- Title: Do multimodal models imagine electric sheep?
- Title(参考訳): マルチモーダルモデルは電気羊を想像する?
- Authors: Santhosh Kumar Ramakrishnan, Carl Vondrick, Raja Giryes, Philipp Krähenbühl, Vladlen Koltun,
- Abstract要約: 12種類の視覚的推論タスクを解決するために、Qwen3.5 VLMを微調整する。
各アクション後のモデルのアクティベーションは、中間状態に関する有意義な視覚情報を符号化していることを示す。
1ステップあたり16個のビジュアルトークンを統合することで,平均解率を83%から89%に向上することがわかった。
- 参考スコア(独自算出の注目度): 99.83000217195644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Yes. We find that large multimodal models develop mental imagery when solving spatial puzzles, and they do imagine sheep when solving sheep puzzles. We fine-tune a Qwen3.5 VLM to solve twelve diverse visual reasoning tasks -- including tangram, jigsaw, sokoban, 3D mental rotation, and rush hour -- that require understanding geometry, spatial relationships, and the consequences of actions. By supervising the model to predict the open-loop sequence of actions to solve a puzzle from an initial state, we show that the model's activations after each action encode meaningful visual information about the intermediate state. This finding suggests that an imperfect visual world model begins to form as a byproduct of learning to select correct actions, in the absence of any explicit visual supervision. Building on this observation, we propose two ways to sharpen and use the mental images formed by the model. We find that integrating as few as sixteen visual tokens per step into the chain of thought improves the average solve rate from 83% to 89%, with particularly strong gains on reasoning-heavy tasks such as jigsaw and 3D mental rotation.
- Abstract(参考訳): はい。
大規模なマルチモーダルモデルは、空間パズルを解く際に精神イメージを発達させ、羊パズルを解く際に羊を想像する。
タングラム,ジグソー,ソコバン,3次元の心的回転,ラッシュアワーを含む12種類の視覚的推論タスクを,幾何学的,空間的関係,行動の結果を理解する必要があるように,Qwen3.5 VLMを微調整する。
初期状態からパズルを解くための動作のオープンループ列を予測するモデルを監督することにより、各動作後のモデルのアクティベーションが、中間状態に関する有意義な視覚情報を符号化していることを示す。
この発見は、明確な視覚的監督がなければ、不完全な視覚世界モデルが正しい行動を選択するための学習の副産物として形成され始めることを示唆している。
そこで本研究では,モデルが生成した心的イメージを鮮明化し,活用するための2つの方法を提案する。
その結果,1ステップあたり16個の視覚トークンを思考連鎖に組み込むことで,平均解解率が83%から89%に向上することがわかった。
関連論文リスト
- MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。
視覚言語モデル(VLM)の規則に基づく強化学習に適応する
提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2025-06-27T17:59:27Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。