論文の概要: From Edges to Depth: Probing the Spatial Hierarchy in Vision Transformers
- arxiv url: http://arxiv.org/abs/2604.23452v1
- Date: Sat, 25 Apr 2026 21:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.355851
- Title: From Edges to Depth: Probing the Spatial Hierarchy in Vision Transformers
- Title(参考訳): エッジから奥行きへ:視覚変換器の空間的階層性を探る
- Authors: Jainum Sanghavi,
- Abstract要約: 視覚変換器は画像分類のみを訓練し、空間的理解を必要とするタスクに日常的に移行した。
このような構造がどこに、どのくらい強固にエンコードされているか尋ねる。
その結果、分類訓練されたViTは、活発に維持された空間階層を発達させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers trained only on image classification routinely transfer to tasks that demand spatial understanding, yet they receive no spatial supervision during pretraining. We ask where and how robustly such structure is encoded. Probing a frozen ViT-B/16 layerwise for two complementary properties, local patch boundaries (BSDS500) and per-patch depth (NYU Depth V2), reveals a clear hierarchy: boundary structure becomes linearly decodable at layers 5-6 (AP = 0.833), while depth, which requires integrating global cues, peaks two to three layers later at layer 8 (MAE = 0.0875). Both signals collapse at the final classification layer, and random-weight controls confirm the encodings are learned rather than architectural. Causal interventions add specificity: ablating the single direction a linear depth probe reads degrades depth decoding by up to 165%, while ablating any other direction changes it by less than 1%. Targeted activation patching along that direction shows the depth signal is partially re-derived at each layer rather than passively carried in the residual stream, with mid-layer interventions persisting most strongly downstream. The result is that a classification-trained ViT develops an actively maintained spatial hierarchy that mirrors the early-to-late progression observed in the primate visual cortex.
- Abstract(参考訳): 視覚変換器は画像分類のみを訓練し、空間的理解を必要とするタスクに日常的に移行するが、事前訓練中に空間的な監督を受けることはない。
このような構造がどこに、どのくらい強固にエンコードされているか尋ねる。
ローカルパッチ境界 (BSDS500) とパーパッチ深度 (NYU Depth V2) の2つの相補的な特性に対して、凍結したViT-B/16層を階層的に提案すると、明確な階層構造が明らかになる: 境界構造は5-6層 (AP = 0.833) で線形にデオード可能になり、一方、グローバルなキューを統合する必要がある深さは、8層 (MAE = 0.0875) で2から3層にピークする。
どちらの信号も最終分類層で崩壊し、ランダムウェイト制御はアーキテクチャよりもコーディングが学習されることを確認する。
線形深度プローブを読み取ると、深度デコーディングが最大165%低下する一方、他の方向は1%以下に低下する。
その方向に沿って標的とする活性化パッチは、深度信号が残留流に受動的に運ばれるのではなく、各層で部分的に再抽出され、中層干渉が最も強く下流に留まっていることを示している。
その結果、分類訓練されたViTは、霊長類視覚野で観察される早期から後期の進行を反映する、活発に維持された空間的階層を発達させる。
関連論文リスト
- Latent attention on masked patches for flow reconstruction [8.69419238669827]
本稿では,マスクフロー再構成のためのレグレッションベースの修正視覚変換器であるLAMPモデルについて紹介する。
その結果,LAMPは10dBから30dBの信号対雑音比で90%の入力から全流れ場を正確に再構成することがわかった。
論文 参考訳(メタデータ) (2026-03-02T16:12:40Z) - From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs [48.33546389897804]
R1型LPMは自己反射の能力に注目が集まっているが、そのような行動の基盤となる内部メカニズムはいまだ不明である。
logitレンズを使ってトークンレベルのセマンティクスを読み取ると、構造化された進行が明らかになる。
以上の結果から,潜時モニタリングから談話レベルの規制,そして最終的に自己回帰を過大化させる,人間的なメタ認知プロセスの進展が示唆された。
論文 参考訳(メタデータ) (2026-02-02T11:58:24Z) - Scale Propagation Network for Generalizable Depth Completion [16.733495588009184]
入力から出力までのスケールを伝搬する新しいスケール伝搬正規化法(SP-Norm)を提案する。
また,SP-NormとConvNeXt V2のバックボーンをベースとした新しいネットワークアーキテクチャを開発した。
我々のモデルは、最先端の手法と比較して、高速かつ低メモリで常に最高の精度を達成している。
論文 参考訳(メタデータ) (2024-10-24T03:53:06Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。