論文の概要: Visual Anagrams Reveal Hidden Differences in Holistic Shape Processing Across Vision Models
- arxiv url: http://arxiv.org/abs/2507.00493v1
- Date: Tue, 01 Jul 2025 07:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.4526
- Title: Visual Anagrams Reveal Hidden Differences in Holistic Shape Processing Across Vision Models
- Title(参考訳): 視覚モデル間のホロスティック形状処理における隠れた相違
- Authors: Fenil R. Doshi, Thomas Fel, Talia Konkle, George Alvarez,
- Abstract要約: 構成形状スコア(CSS)による絶対構成能力の問題として形状評価を再放送する。
CSSは、完全に自己管理された言語対応のトランスフォーマーによって、幅広い構成上の感度を明らかにしている。
本研究は, 形状とテクスチャの人工的な選択を強制することには, 真に堅牢で, 汎用的で, 人間のような視覚システムへの道が欠かせないことを示唆する。
- 参考スコア(独自算出の注目度): 4.749824105387293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are able to recognize objects based on both local texture cues and the configuration of object parts, yet contemporary vision models primarily harvest local texture cues, yielding brittle, non-compositional features. Work on shape-vs-texture bias has pitted shape and texture representations in opposition, measuring shape relative to texture, ignoring the possibility that models (and humans) can simultaneously rely on both types of cues, and obscuring the absolute quality of both types of representation. We therefore recast shape evaluation as a matter of absolute configural competence, operationalized by the Configural Shape Score (CSS), which (i) measures the ability to recognize both images in Object-Anagram pairs that preserve local texture while permuting global part arrangement to depict different object categories. Across 86 convolutional, transformer, and hybrid models, CSS (ii) uncovers a broad spectrum of configural sensitivity with fully self-supervised and language-aligned transformers -- exemplified by DINOv2, SigLIP2 and EVA-CLIP -- occupying the top end of the CSS spectrum. Mechanistic probes reveal that (iii) high-CSS networks depend on long-range interactions: radius-controlled attention masks abolish performance showing a distinctive U-shaped integration profile, and representational-similarity analyses expose a mid-depth transition from local to global coding. A BagNet control remains at chance (iv), ruling out "border-hacking" strategies. Finally, (v) we show that configural shape score also predicts other shape-dependent evals. Overall, we propose that the path toward truly robust, generalizable, and human-like vision systems may not lie in forcing an artificial choice between shape and texture, but rather in architectural and learning frameworks that seamlessly integrate both local-texture and global configural shape.
- Abstract(参考訳): 人間は、局所的なテクスチャの手がかりと、対象部分の構成の両方に基づいて物体を認識することができるが、現代の視覚モデルは、主に局所的なテクスチャの手がかりを収穫し、脆く非構成的な特徴をもたらす。
形状-vs-テクスチャバイアスの研究は、反対に形状とテクスチャ表現を落とし、テクスチャに対する形状を測定し、モデル(と人間)が両タイプのキューを同時に依存できる可能性を無視し、両タイプの表現の絶対的な品質を無視した。
そこで我々は、CSS(Configural Shape Score)によって運用される絶対的な構成能力の問題として、形状評価を再放送する。
i) 局所的なテクスチャを保ったオブジェクト・アナグラムの両画像の認識能力を測定し, グローバルな部分配置を調整して, 異なる対象カテゴリを表現した。
Across 86 convolutional, transformer, and hybrid model, CSS
(ii) DINOv2、SigLIP2、EVA-CLIPによって実証された、完全に自己制御された言語対応のトランスフォーマーで、CSSスペクトルの最上位を占める構成感度の幅広いスペクトルを明らかにする。
メカニカルプローブはそれを明らかにします
(3)高CSSネットワークは長距離通信に依存している:半径制御された注目マスクはU字型統合プロファイルを示す性能を廃止し、表現相似解析は局所的な符号化からグローバルな符号化への中間的な移行を露呈する。
BagNetコントロールは偶然に残る
(4)「ボーダーハック」戦略を除外する。
最後に
(v) 構成形状スコアは、他の形状に依存した方程式も予測できることを示す。
全体として、真に堅牢で、一般化可能で、人間的な視覚システムへの道筋は、形状とテクスチャの人工的な選択を強制することではなく、局所的なテクスチャとグローバルな構成形状の両方をシームレスに統合するアーキテクチャと学習のフレームワークである、と提案する。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Context and Geometry Aware Voxel Transformer for Semantic Scene Completion [7.147020285382786]
視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。
既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像間で共有コンテキストに依存しないクエリを使用するのが一般的である。
セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T14:16:30Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - Does resistance to style-transfer equal Global Shape Bias? Measuring
network sensitivity to global shape configuration [6.047146237332764]
モデル全体の形状バイアスを評価するための最新のベンチマークは、スタイル変換された画像のセットである。
スタイル伝達画像で訓練されたネットワークは、実際にスタイルを無視することを学ぶが、その形状バイアスは、主に局所的な詳細から生じる。
論文 参考訳(メタデータ) (2023-10-11T15:00:11Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。