論文の概要: Locating and Editing Figure-Ground Organization in Vision Transformers
- arxiv url: http://arxiv.org/abs/2603.06407v1
- Date: Fri, 06 Mar 2026 15:48:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.170062
- Title: Locating and Editing Figure-Ground Organization in Vision Transformers
- Title(参考訳): 視覚変換器における図形の配置と編集
- Authors: Stefan Arnold, René Gröbner,
- Abstract要約: ビジョントランスフォーマーは、局所的な幾何学的証拠によって駆動される完成物と、グローバルな組織的先駆者によって好まれるものの2つを選択することで、フィギュア・グラウンドの組織を解決しなければならない。
フィギュアグラウンドの組織は、初期層と中間層であいまいであり、後層では突然解決する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers must resolve figure-ground organization by choosing between completions driven by local geometric evidence and those favored by global organizational priors, giving rise to a characteristic perceptual ambiguity. We aim to locate where the canonical Gestalt prior convexity is realized within the internal components of BEiT. Using a controlled perceptual conflict based on synthetic shapes of darts, we systematically mask regions that equally admit either a concave completion or a convex completion. We show that BEiT reliably favors convex completion under this competition. Projecting internal activations into the model's discrete visual codebook space via logit attribution reveals that this preference is governed by identifiable functional units within transformer substructures. Specifically, we find that figure-ground organization is ambiguous through early and intermediate layers and resolves abruptly in later layers. By decomposing the direct effect of attention heads, we identify head L0H9 acting as an early seed, introducing a weak bias toward convexity. Downscaling this single attention head shifts the distributional mass of the perceptual conflict across a continuous decision boundary, allowing concave evidence to guide completion.
- Abstract(参考訳): 視覚変換器は、局所的な幾何学的証拠によって駆動される完成物と、グローバルな組織的先駆者によって好まれるものの2つを選択して、フィギュア・グラウンドの組織を解決しなくてはならない。
我々は、BEiTの内部成分の中で、標準ゲシュタルト先行凸が実現される場所を見つけることを目的としている。
ダーツの合成形状に基づく制御された知覚対立を用いて,円錐の完成と凸の完成を等しく認める領域をシステマティックにマスキングする。
BEiTはこのコンペティションにおいて凸完成を確実に好んでいることを示す。
モデル内のアクティベーションをロジット属性を介して離散的な視覚コードブック空間に投影すると、この嗜好がトランスフォーマーサブ構造内の特定可能な機能単位によって支配されていることが分かる。
具体的には、フィギュアグラウンドの組織は、初期層と中間層を通してあいまいであり、後層では突然解決する。
注意ヘッドの直接効果を分解することにより、初期種子として働く頭部L0H9を同定し、凸性に対する弱いバイアスを生じる。
この単一注意ヘッドをダウンスケールすることで、知覚的対立の分布質量が連続的な決定境界を越えてシフトし、凹凸証拠が完成を導く。
関連論文リスト
- The Bayesian Geometry of Transformer Attention [0.4779196219827507]
我々は,真の後部が閉じた形で認識され,記憶化が不可能な制御環境を構築する。
小さな変圧器はmbox$10-3$--10-4$ビットの精度でベイズの後部を再現するが、容量整合幾何は桁違いに失敗する。
論文 参考訳(メタデータ) (2025-12-27T05:28:58Z) - Towards a Golden Classifier-Free Guidance Path via Foresight Fixed Point Iterations [12.366757123129402]
我々は、条件付きガイダンスを固定点反復として再設定する統一的な視点を提案する。
本稿では,早期拡散段階における長期サブプロブレムの解決を優先するForesight Guidance(FSG)を紹介する。
我々の研究は、条件付きガイダンスのための新しい視点を提供し、適応設計の可能性を解き放つ。
論文 参考訳(メタデータ) (2025-10-24T14:39:07Z) - Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models [9.660348625678001]
大きな言語モデル(LLM)は幻覚を生じさせ、事実的に間違っているが確実なアサーションを生み出します。
本稿では,通常の注意をCAM(Credal Attention Mechanism)に置き換えるCredal Transformerを紹介する。
論文 参考訳(メタデータ) (2025-10-14T04:31:49Z) - From Local Cues to Global Percepts: Emergent Gestalt Organization in Self-Supervised Vision Models [7.7536110932446265]
我々は、現代の視覚モデルが類似した行動を示すかどうか、そしてこれらがどのような訓練条件で現れるかを検討する。
Masked Autoencoding (MAE) で訓練された視覚変換器 (ViT) はゲシュタルト法則と整合したアクティベーションパターンを示す。
本研究では,局所的なテクスチャを保ちながら,地球規模の空間摂動に対する感受性を評価するためのディストーテッド空間関係テストベンチ(DiSRT)を紹介する。
論文 参考訳(メタデータ) (2025-05-31T21:35:54Z) - On the Emergence of Position Bias in Transformers [59.87743433861665]
本稿では,多層構造における位置バイアスを解析するためのグラフ理論フレームワークを提案する。
我々のフレームワークは、トランスにおける位置的相互作用を理解するための原則的な基盤を提供する。
論文 参考訳(メタデータ) (2025-02-04T02:53:07Z) - Regularizing Self-training for Unsupervised Domain Adaptation via
Structural Constraints [14.593782939242121]
本稿では,従来の自己学習目標を正規化するために,奥行きなどの補助的モーダルから構造的手がかりを取り入れることを提案する。
具体的には、オブジェクトインスタンスの近い領域内でピクセル表現をプルする、対照的なピクセルレベルのオブジェクト性制約を導入する。
セマンティックセグメンテーションのための様々な UDA ベンチマークにおいて,正則化器は最上位の自己学習手法を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-04-29T00:12:26Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。