論文の概要: Large Vision Models Can Solve Mental Rotation Problems
- arxiv url: http://arxiv.org/abs/2509.15271v1
- Date: Thu, 18 Sep 2025 11:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.839453
- Title: Large Vision Models Can Solve Mental Rotation Problems
- Title(参考訳): 大規模視覚モデルによる心的回転問題の解法
- Authors: Sebastian Ray Mason, Anders Gjølbye, Phillip Chavarria Højbjerg, Lenka Tětková, Lars Kai Hansen,
- Abstract要約: 心的回転は、人間の空間的推論の鍵となるテストである。
現代の視覚変換器の成功にもかかわらず、これらのモデルがどのように類似の能力を発達するかは未だ不明である。
ViT,CLIP,DINOv2,DINOv3の系統的評価を行った。
- 参考スコア(独自算出の注目度): 2.772895608190934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mental rotation is a key test of spatial reasoning in humans and has been central to understanding how perception supports cognition. Despite the success of modern vision transformers, it is still unclear how well these models develop similar abilities. In this work, we present a systematic evaluation of ViT, CLIP, DINOv2, and DINOv3 across a range of mental-rotation tasks, from simple block structures similar to those used by Shepard and Metzler to study human cognition, to more complex block figures, three types of text, and photo-realistic objects. By probing model representations layer by layer, we examine where and how these networks succeed. We find that i) self-supervised ViTs capture geometric structure better than supervised ViTs; ii) intermediate layers perform better than final layers; iii) task difficulty increases with rotation complexity and occlusion, mirroring human reaction times and suggesting similar constraints in embedding space representations.
- Abstract(参考訳): 心的回転は、人間の空間的推論の鍵となるテストであり、認識が認識をどのようにサポートするかを理解する中心となった。
現代の視覚変換器の成功にもかかわらず、これらのモデルがどのように類似の能力を発達するかは未だ不明である。
本研究では,シェパードやメッツラーのような単純なブロック構造から,より複雑なブロックフィギュア,3種類のテキスト,フォトリアリスティックなオブジェクトまで,様々なメンタルローテーションタスクにおけるViT,CLIP,DINOv2,DINOv3の体系的評価を行う。
モデル表現層を層単位で探索することにより,これらのネットワークが成功する場所と方法を検討する。
私たちはそれを見つける。
一 自己監督型VTは、監督型VTよりも幾何学的構造を捕えること。
二 中間層が最終層より優れていること。
三 作業困難は、回転複雑性及び閉塞により増大し、人間の反応時間を反映し、空間表現の埋め込みにおいて同様の制約を示唆する。
関連論文リスト
- Spatial Mental Modeling from Limited Views [71.57140964322559]
新しいMindCubeベンチマークでは、3,268枚の画像に21,154件の質問があった。
MindCubeを用いて、視覚言語モデル(VLM)がいかに堅牢な空間精神モデルを構築するかを評価する。
次に、VLMが空間的メンタルモデルに近似する3つのアプローチを探索する。
論文 参考訳(メタデータ) (2025-06-26T16:38:19Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - Computer Vision Models Show Human-Like Sensitivity to Geometric and Topological Concepts [1.935452308279137]
コンピュータビジョンモデルと幾何学的・トポロジカル(GT)概念に対する人間の感度について検討する。
私たちは、大規模な画像データセットに基づいてトレーニングされたコンピュータビジョンモデルを使用します。
トランスフォーマーベースのモデルは、幼児よりも高い総合的精度を達成する。
論文 参考訳(メタデータ) (2025-05-19T16:04:53Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Visualizing and Understanding Contrastive Learning [22.553990823550784]
一対のイメージから類似性学習タスクを理解するのに寄与する視覚的説明法を設計する。
また、画像分類システムの視覚的説明を評価するために用いられる既存のメトリクスを、一対の説明に適合させる。
論文 参考訳(メタデータ) (2022-06-20T13:01:46Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - The Right Spin: Learning Object Motion from Rotation-Compensated Flow
Fields [61.664963331203666]
人間がどのように動く物体を知覚するかは、コンピュータービジョンにおける長年の研究課題である。
この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。
運動場からカメラの回転を推定する新しい確率モデルを提案する。
論文 参考訳(メタデータ) (2022-02-28T22:05:09Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。