論文の概要: Another BRIXEL in the Wall: Towards Cheaper Dense Features
- arxiv url: http://arxiv.org/abs/2511.05168v1
- Date: Fri, 07 Nov 2025 11:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.745912
- Title: Another BRIXEL in the Wall: Towards Cheaper Dense Features
- Title(参考訳): 壁のもう1つのBRIXEL: チーパディエンス機能に向けて
- Authors: Alexander Lappe, Martin A. Giese,
- Abstract要約: ビジョンファウンデーションモデルは、グローバルおよび局所的な下流タスクの両方で強力なパフォーマンスを達成する。
最近のDINOv3モデルファミリーは、非常にきめ細かい機能マップを作成でき、最先端の性能を実現している。
BRIXELは,生徒が高解像度で特徴マップを再現することを学ぶための簡単な知識蒸留手法である。
- 参考スコア(独自算出の注目度): 46.836122954309566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision foundation models achieve strong performance on both global and locally dense downstream tasks. Pretrained on large images, the recent DINOv3 model family is able to produce very fine-grained dense feature maps, enabling state-of-the-art performance. However, computing these feature maps requires the input image to be available at very high resolution, as well as large amounts of compute due to the squared complexity of the transformer architecture. To address these issues, we propose BRIXEL, a simple knowledge distillation approach that has the student learn to reproduce its own feature maps at higher resolution. Despite its simplicity, BRIXEL outperforms the baseline DINOv3 models by large margins on downstream tasks when the resolution is kept fixed. Moreover, it is able to produce feature maps that are very similar to those of the teacher at a fraction of the computational cost. Code and model weights are available at https://github.com/alexanderlappe/BRIXEL.
- Abstract(参考訳): ビジョンファウンデーションモデルは、グローバルおよび局所的な下流タスクの両方で強力なパフォーマンスを達成する。
最近のDINOv3モデルファミリーは、大きな画像に基づいて、非常にきめ細かい機能マップを作成でき、最先端のパフォーマンスを実現している。
しかし、これらの特徴マップの計算には、非常に高解像度の入力画像と、トランスフォーマーアーキテクチャの2乗複雑さによる大量の計算が必要である。
これらの課題に対処するために, BRIXELを提案する。BRIXELは, 生徒がより高解像度で特徴マップを再現することを学ぶための, シンプルな知識蒸留手法である。
その単純さにもかかわらず、BRIXELは、解像度が固定されたときに下流タスクにおいて、ベースラインのDINOv3モデルよりも大きなマージンで性能を向上する。
さらに,教師と非常によく似た特徴マップを計算コストのごく一部で作成することができる。
コードとモデルの重み付けはhttps://github.com/alexanderlappe/BRIXELで確認できる。
関連論文リスト
- HiMat: DiT-based Ultra-High Resolution SVBRDF Generation [26.081964370337943]
HiMatは、効率的な4K SVBRDF生成に適した拡散ベースのフレームワークである。
CrossStitchは軽量な畳み込みモジュールで、グローバルな注目を集めるコストを伴わずに、クロスマップの一貫性を強制する。
論文 参考訳(メタデータ) (2025-08-09T15:16:58Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - LR-Net: A Block-based Convolutional Neural Network for Low-Resolution
Image Classification [0.0]
ノイズや低解像度の画像から低レベル特徴と大域特徴の両方を学習するためのブロックで構成された,新しい画像分類アーキテクチャを開発した。
ブロックの設計は,性能向上とパラメータサイズ削減のために,Residual ConnectionとInceptionモジュールの影響を強く受けていた。
我々は、提示されたアーキテクチャが既存の最先端畳み込みニューラルネットワークよりも高速で正確であることを示す詳細なテストを実施した。
論文 参考訳(メタデータ) (2022-07-19T20:01:11Z) - DenserNet: Weakly Supervised Visual Localization Using Multi-scale
Feature Aggregation [7.2531609092488445]
画像表現の異なる意味レベルで特徴マップを集約する畳み込みニューラルネットワークアーキテクチャを開発する。
第二に、我々のモデルは、正および負のGPSタグ付き画像対以外の画素レベルのアノテーションなしで、エンドツーエンドで訓練されている。
第3に、アーキテクチャが計算中に特徴やパラメータを共有しているため、計算効率がよい。
論文 参考訳(メタデータ) (2020-12-04T02:16:47Z) - PNEN: Pyramid Non-Local Enhanced Networks [23.17149002568982]
我々は,各画素間の接続を構築するために,新しい非局所モジュールであるピラミッド非局所ブロックを提案する。
提案したモジュールに基づいて,エッジ保存画像平滑化のためのピラミッド非局所拡張ネットワークを考案する。
超解像法と超解像法という2つの既存手法に統合し,一貫した性能向上を実現した。
論文 参考訳(メタデータ) (2020-08-22T03:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。