論文の概要: Zero-Ablation Overstates Register Content Dependence in DINO Vision Transformers
- arxiv url: http://arxiv.org/abs/2604.14433v1
- Date: Wed, 15 Apr 2026 21:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.618096
- Title: Zero-Ablation Overstates Register Content Dependence in DINO Vision Transformers
- Title(参考訳): ゼロアブレーションによるDINOビジョン変換器のレジスタ内容依存性
- Authors: Felipe Parodi, Jordan Matelsky, Melanie Segado,
- Abstract要約: ゼロアブレーションオーバーステートは、正確なレジスタの内容に依存することを示す。
ゼロアブレーションオーバーステートは、正確なレジスタの内容に依存すると結論付ける。
- 参考スコア(独自算出の注目度): 0.5908824417241282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-ablation -- replacing token activations with zero vectors -- is widely used to probe token function in vision transformers. Register zeroing in DINOv2+registers and DINOv3 produces large drops (up to $-36.6$\,pp classification, $-30.9$\,pp segmentation), suggesting registers are functionally indispensable. However, three replacement controls -- mean-substitution, noise-substitution, and cross-image register-shuffling -- preserve performance across classification, correspondence, and segmentation, remaining within ${\sim}1$\,pp of the unmodified baseline. Per-patch cosine similarity shows these replacements genuinely perturb internal representations, while zeroing causes disproportionately large perturbations, consistent with why it alone degrades tasks. We conclude that zero-ablation overstates dependence on exact register content. In the frozen-feature evaluations we test, performance depends on plausible register-like activations rather than on exact image-specific values. Registers nevertheless buffer dense features from \texttt{[CLS]} dependence and are associated with compressed patch geometry. These findings, including the replacement-control results, replicate at ViT-B scale.
- Abstract(参考訳): ゼロアブレーション -- トークンのアクティベーションをゼロベクトルに置き換える -- は、視覚変換器のトークン関数を探索するために広く使われている。
DINOv2+レジスタとDINOv3のレジスタゼロ化は、大きなドロップ(最大$-36.6$\,pp分類、$-30.9$\,ppセグメンテーション)を生成する。
しかし、3つの代替コントロール -- 平均置換、ノイズ置換、クロスイメージレジスタシャッフル -- は、未修正ベースラインの${\sim}1$\,ppに留まる、分類、対応、セグメンテーションのパフォーマンスを維持している。
パッチごとのコサイン類似性は、これらの置換が真に摂動的な内部表現を示す一方で、ゼロ化はタスクのみを分解する理由と一致して、不均等に大きな摂動を引き起こす。
ゼロアブレーションオーバーステートは、正確なレジスタの内容に依存すると結論付ける。
テストした凍結機能評価では、性能は正確な画像固有値ではなく、可塑性レジスターのようなアクティベーションに依存する。
にもかかわらず、レジスタは \texttt{[CLS]} 依存のバッファの高密度な特徴を持ち、圧縮パッチ幾何と関連付けられている。
これらの所見は,ViT-Bスケールで再現した。
関連論文リスト
- Sparse-by-Design Cross-Modality Prediction: L0-Gated Representations for Reliable and Efficient Learning [0.0]
統一されたスペーシフィケーションプリミティブは、モダリティに匹敵する精度と効率のトレードオフをもたらす。
学習表現に直接L0スタイルのスパーシリティを強制するモダリティ非依存的かつ機能的にハードコンクリートなゲーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-26T03:33:42Z) - TENSURE: Fuzzing Sparse Tensor Compilers (Registered Report) [9.083996936429465]
我々は,スパースコンパイラのテストに特化して設計された,最初のブラックボックスファジィフレームワークであるTENSUREを紹介する。
合成されたカーネルの100%の意味論的妥当性を保証する制約ベースの新しい生成アルゴリズムを提案する。
TACOとFinchの2つの最先端システムに対する評価では、特にTACOでは、TENSUREがクラッシュや無音の誤コンパイルを露呈している。
論文 参考訳(メタデータ) (2026-03-19T00:13:14Z) - Unbiased Gradient Estimation for Event Binning via Functional Backpropagation [64.88399635309918]
バックプロパゲーション中に弱微分を合成することにより任意の双対関数の非バイアス勾配推定のための新しいフレームワークを提案する。
自己監督型光流ではECEが9.4%,SLAMでは5.1%低下し,事象に基づく視覚知覚において大きなメリットが示された。
論文 参考訳(メタデータ) (2026-02-13T04:05:03Z) - Identifying Intervenable and Interpretable Features via Orthogonality Regularization [48.938969291033665]
我々はデコーダ行列をほぼ直交的な特徴に分解する。
これにより、ターゲットデータセットのパフォーマンスを本質的に変更することなく、機能間の干渉と重畳を低減することができる。
私たちのコードは、$texttthttps://github.com/mrtzmllr/sae-icm$で利用可能です。
論文 参考訳(メタデータ) (2026-02-04T16:29:14Z) - Quant-Trim in Practice: Improved Cross-Platform Low-Bit Deployment on Edge NPUs [0.6138671548064355]
特別なエッジアクセラレータは低ビット量子化に依存しているが、ベンダーコンパイラはスケーリング、クリップング、カーネルサポートが異なる。
同じ浮動小数点(FP)チェックポイントは、バックエンド間で一貫性のない精度が得られるため、実践者はフラグや推論モデルをベンダーフレンドリーなオペレーターサブセットに調整せざるを得ない。
我々は,バックエンドと精度の選択に対してハードウェア中立チェックポイントを生成するトレーニングフェーズであるQuant-Trimを紹介する。
論文 参考訳(メタデータ) (2025-11-19T10:09:02Z) - MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples [8.323617762880533]
ゼロショット異常分類(AC/AS)のためのMutual Scoring framework(MuSc-V2)を提案する。
私たちのフレームワークは、完全なデータセットと、一貫して堅牢なパフォーマンスを持つ小さなサブセットの両方で柔軟に機能します。
新たなフレームワークの助けを借りて、MuSc-V2は大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-11-13T07:47:37Z) - Registration is a Powerful Rotation-Invariance Learner for 3D Anomaly Detection [64.0168648353038]
ポイントクラウドデータにおける3次元異常検出は、高い信頼性で構造欠陥を特定することを目的として、産業品質管理に不可欠である。
現在のメモリバンクベースの手法は、しばしば一貫性のない特徴変換と限定的な識別能力に悩まされる。
本稿では、ポイントクラウド登録とメモリベース異常検出の目的を統合した、登録による回転不変の特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-19T14:56:38Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Triplet Contrastive Learning for Unsupervised Vehicle Re-identification [55.445358749042384]
部分的特徴学習は、車両の再識別におけるセマンティック理解にとって重要な技術である。
本稿では,クラスタ機能を活用したTCL(Triplet Contrastive Learning framework)を提案する。
論文 参考訳(メタデータ) (2023-01-23T15:52:12Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - Asymmetric Loss Functions for Learning with Noisy Labels [82.50250230688388]
そこで本研究では,様々なノイズに対する雑音ラベルによる学習に頑健な,新しい損失関数,すなわちテクスティタ対称損失関数を提案する。
ベンチマークデータセットの実験結果は、非対称損失関数が最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-06-06T12:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。