論文の概要: On the Intrinsic Limits of Transformer Image Embeddings in Non-Solvable Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2601.03048v1
- Date: Tue, 06 Jan 2026 14:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.974377
- Title: On the Intrinsic Limits of Transformer Image Embeddings in Non-Solvable Spatial Reasoning
- Title(参考訳): 非可解空間推論におけるトランスフォーマー画像埋め込みの本質的限界について
- Authors: Siyi Lyu, Quan Liu, Feng Yan,
- Abstract要約: 視覚変換器 (ViT) は意味認識に優れるが, 心的回転などの空間的推論タスクにおいて, 系統的失敗を示す。
我々は複雑性境界を定式化する: 定数深度ViTは、非解決可能な空間構造を効率的に捉えるための論理的な深さを根本的に欠いている。
我々はこの複雑性ギャップを潜在空間探索により検証し、ViT表現が構成深度が増加するにつれて非解決不可能なタスクに構造的に崩壊することを示した。
- 参考スコア(独自算出の注目度): 4.907226678338655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) excel in semantic recognition but exhibit systematic failures in spatial reasoning tasks such as mental rotation. While often attributed to data scale, we propose that this limitation arises from the intrinsic circuit complexity of the architecture. We formalize spatial understanding as learning a Group Homomorphism: mapping image sequences to a latent space that preserves the algebraic structure of the underlying transformation group. We demonstrate that for non-solvable groups (e.g., the 3D rotation group $\mathrm{SO}(3)$), maintaining such a structure-preserving embedding is computationally lower-bounded by the Word Problem, which is $\mathsf{NC^1}$-complete. In contrast, we prove that constant-depth ViTs with polynomial precision are strictly bounded by $\mathsf{TC^0}$. Under the conjecture $\mathsf{TC^0} \subsetneq \mathsf{NC^1}$, we establish a complexity boundary: constant-depth ViTs fundamentally lack the logical depth to efficiently capture non-solvable spatial structures. We validate this complexity gap via latent-space probing, demonstrating that ViT representations suffer a structural collapse on non-solvable tasks as compositional depth increases.
- Abstract(参考訳): 視覚変換器(ViT)は意味認識において優れているが、心的回転のような空間的推論タスクにおいて体系的な失敗を示す。
データスケールに起因することが多いが、この制限はアーキテクチャの本質的な回路の複雑さから生じると提案する。
我々は空間的理解を群準同型学習として形式化し、画像列を基底変換群の代数的構造を保存する潜在空間にマッピングする。
我々は、非可解群(例えば、3次元回転群 $\mathrm{SO}(3)$)に対して、そのような構造保存埋め込みを維持することは、ワード問題によって計算的に低く、これは$\mathsf{NC^1}$完全であることを示した。
対照的に、多項式精度の定数深度 ViT は $\mathsf{TC^0}$ で厳密に有界であることが証明される。
予想$\mathsf{TC^0} \subsetneq \mathsf{NC^1}$ の下で、複雑性境界を確立する。
我々はこの複雑性ギャップを潜時空間探索により検証し、ViT表現が構成深さが増加するにつれて非解決不可能なタスクに構造的に崩壊することを示した。
関連論文リスト
- Memory-Amortized Inference: A Topological Unification of Search, Closure, and Structure [6.0044467881527614]
単一の幾何学基板の位相遷移として学習と記憶を統一する形式的フレームワークであるtextbfMemory-Amortized Inference (MAI) を提案する。
我々は,高複雑さ探索を低複雑さ検索に変換することによって認知が機能することを示す。
この枠組みは、遅い思考(推論)から速い思考(直観)の出現に関する厳密な説明を提供する。
論文 参考訳(メタデータ) (2025-11-28T16:28:24Z) - Expressive Power of Deep Networks on Manifolds: Simultaneous Approximation [2.815765641180636]
境界重みを持つ定数深度$mathrmReLUk-1$ネットワークは、ソボレフ空間内の任意の関数を近似することができることを示す。
また、必要なパラメータ数が対数係数に一致することを示すことで、我々の構成がほぼ最適であることを示す。
論文 参考訳(メタデータ) (2025-09-11T11:28:20Z) - Why and When Deep is Better than Shallow: An Implementation-Agnostic State-Transition View of Depth Supremacy [15.310099705870114]
一般距離空間上で作用する抽象的状態遷移半群として深部モデルを定式化する。
我々は、実装(例えば、ReLUネット、トランスフォーマー、チェーンオブ思想)を抽象状態遷移から分離する。
我々は,その依存が抽象的な深さ-$k$ネットワークにのみ依存し,実装に依存しないバイアス分散分解を証明した。
論文 参考訳(メタデータ) (2025-05-21T03:32:30Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Rethinking SO(3)-equivariance with Bilinear Tensor Networks [0.0]
我々は、偏差対称性の破れにより、SO$(2)$のベクトルおよび順序2テンソル表現のみに作用するネットワークの表現性を向上させることができることを示す。
本稿では, b-中間子崩壊から生じる粒子ジェットを, 圧倒的なQCD背景から識別しなくてはならない, テクスタイブタグと呼ばれる高エネルギー物理の重要な問題に対して, 本手法を実証する。
論文 参考訳(メタデータ) (2023-03-20T17:23:15Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Bounds on quantum evolution complexity via lattice cryptography [0.0]
量子論における可積分運動とカオス運動の差は、対応する進化作用素の複雑さによって表される。
ここでの複雑性は、時間依存進化作用素とユニタリ群内の原点の間の最短測地線距離として理解されている。
論文 参考訳(メタデータ) (2022-02-28T16:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。