論文の概要: Elucidating the Role of Feature Normalization in IJEPA
- arxiv url: http://arxiv.org/abs/2508.02829v1
- Date: Mon, 04 Aug 2025 18:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.648243
- Title: Elucidating the Role of Feature Normalization in IJEPA
- Title(参考訳): IJEPAにおける機能正規化の役割の解明
- Authors: Adam Colton,
- Abstract要約: 教師エンコーダの出力における特徴は、学生エンコーダ及び予測器の蒸留ターゲットとして機能する前に、層正規化(LN)される。
本稿では,高エネルギーのトークンが意味論的に重要な画像領域を符号化する,視覚トークンの自然エネルギー階層を乱す特徴の正規化を提案する。
我々は,VT-Smallのイメージネット線形プローブ精度を38%から42.7%改善し,ニューヨーク深度V2単分子深度推定でRMSEを0.08削減した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the standard image joint embedding predictive architecture (IJEPA), features at the output of the teacher encoder are layer normalized (LN) before serving as a distillation target for the student encoder and predictor. We propose that this feature normalization disrupts the natural energy hierarchy of visual tokens, where high-energy tokens (those with larger L2 norms) encode semantically important image regions. LN forces all features to have identical L2 norms, effectively equalizing their energies and preventing the model from prioritizing semantically rich regions. We find that IJEPA models trained with feature LN exhibit loss maps with significant checkerboard-like artifacts. We propose that feature LN be replaced with a DynTanh activation as the latter better preserves token energies and allows high-energy tokens to greater contribute to the prediction loss. We show that IJEPA trained with feature DynTanh exhibits a longer-tailed loss distribution and fixes the checkerboard artifacts in the loss map. Our empirical results show that our simple modification improves ImageNet linear probe accuracy from 38% to 42.7% for ViT-Small and reduces RMSE by 0.08 on NYU Depth V2 monocular depth estimation. These results suggest that preserving natural token energies is crucial for effective self-supervised visual representation learning.
- Abstract(参考訳): 標準画像埋め込み予測アーキテクチャ(IJEPA)において、教師エンコーダの出力における特徴を、学生エンコーダ及び予測器の蒸留ターゲットとして機能する前に、レイヤ正規化(LN)する。
この特徴正規化は、高エネルギートークン(L2ノルムが大きい)が意味的に重要な画像領域を符号化する視覚トークンの自然エネルギー階層を阻害する。
LNは全ての特徴に同一のL2ノルムを持つことを強制し、そのエネルギーを効果的に等しくし、モデルが意味的にリッチな領域を優先順位付けすることを防ぐ。
We found that IJEPA model trained with feature LN exhibit loss map with significant checkerboard-like artifacts。
我々は,LNをDynTanhアクティベーションに置き換えることを提案する。後者はトークンのエネルギーをよりよく保存し,高エネルギーのトークンが予測損失に寄与できるようにする。
特徴量DynTanhでトレーニングしたIJEPAは、長い尾の損失分布を示し、損失マップのチェッカーボードアーティファクトを修正する。
実験の結果,VT-Smallではイメージネット線形プローブの精度は38%から42.7%に向上し,ニューヨーク深度V2単分子深度推定ではRMSEを0.08削減した。
これらの結果から,自然トークンのエネルギー保存は,効果的な自己監督型視覚表現学習に不可欠であることが示唆された。
関連論文リスト
- DGIQA: Depth-guided Feature Attention and Refinement for Generalizable Image Quality Assessment [9.851063768646847]
非参照画像品質評価における長年の課題は、自然歪みを目にしない客観的な一般化の欠如である。
我々は,シーンの深度と空間的特徴を構造認識表現に蒸留する,Depth-Guided Cross-attention and refinement 機構を新たに開発した。
マルチモーダルアテンションベースプロジェクション関数としてTCBとDepth-CARを実装し,最も有用な特徴を選択する。
実験により,提案したDGIQAモデルにより,総合的および真正なベンチマークデータセット上での最先端(SOTA)性能が得られた。
論文 参考訳(メタデータ) (2025-05-29T20:52:56Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - Chasing Better Deep Image Priors between Over- and Under-parameterization [63.8954152220162]
そこで本研究では,DNN固有の空間性を利用して,LIP(lottery image prior)を新たに検討する。
LIPworksは、コンパクトなモデルサイズでディープデコーダを著しく上回っている。
また、LIPを圧縮センシング画像再構成に拡張し、事前学習したGANジェネレータを前者として使用する。
論文 参考訳(メタデータ) (2024-10-31T17:49:44Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - Hi-Map: Hierarchical Factorized Radiance Field for High-Fidelity
Monocular Dense Mapping [51.739466714312805]
ニューラルラジアンス場(NeRF)に基づく新しいモノクリン高密度マッピング手法であるHi-Mapを導入する。
ハイマップは、RGB入力のみを用いた効率的かつ高忠実なマッピングを実現する能力において例外的である。
論文 参考訳(メタデータ) (2024-01-06T12:32:25Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - Revisiting Cephalometric Landmark Detection from the view of Human Pose
Estimation with Lightweight Super-Resolution Head [11.40242574405714]
提案手法は,MMPose として知られるヒューマノイドポーズ推定(HPE)に基づくベンチマークである。
パフォーマンスをさらに向上するために、フレームワーク内にアップスケーリング設計を導入します。
MICCAI CLDetection2023では,3つの指標で1位,残る1つで3位となった。
論文 参考訳(メタデータ) (2023-09-29T11:15:39Z) - FG-Depth: Flow-Guided Unsupervised Monocular Depth Estimation [17.572459787107427]
そこで本研究では,典型的な測光損失を代替する流量蒸留損失と,不適切な画素を除去するための前向きフローベースマスクを提案する。
提案手法は,KITTIとNYU-Depth-v2の両方のデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-01-20T04:02:13Z) - Practical Exposure Correction: Great Truths Are Always Simple [65.82019845544869]
我々は,効率と性能の特性を組み立てるPEC(Practical Exposure Corrector)を確立する。
観測結果から有用な情報を抽出するキーエンジンとして,露光対向関数を導入する。
我々の実験は提案したPECの優位性を十分に明らかにしている。
論文 参考訳(メタデータ) (2022-12-29T09:52:13Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Improved Training of Sparse Coding Variational Autoencoder via Weight
Normalization [0.0]
我々は最近提案されたsparse coding variational autoencoder (svae) に着目した。
単位ノルムへのフィルタの投影がアクティブフィルタの数を劇的に増加させることを示す。
本結果は,データから疎表現を学習する上での重み正規化の重要性を強調した。
論文 参考訳(メタデータ) (2021-01-23T08:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。