論文の概要: UniRefiner: Teaching Pre-trained ViTs to Self-Dispose Dross via Contrastive Register
- arxiv url: http://arxiv.org/abs/2605.19622v1
- Date: Tue, 19 May 2026 10:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.267454
- Title: UniRefiner: Teaching Pre-trained ViTs to Self-Dispose Dross via Contrastive Register
- Title(参考訳): UniRefiner: コントラストレジスタを通じて、事前トレーニングされたViTにドローを自作するように教える
- Authors: Congpei Qiu, Zhaoyu Hu, Wei Ke, Zhuotao Tian, Yanhao Wu, Tong Zhang,
- Abstract要約: 位置整合のセマンティクスをエンコードしないトークンはすべて、突発的なアーティファクトとして扱われるべきである、と我々は主張する。
我々は、これらのアーティファクトの自己配置を事前学習したビジョントランスフォーマーに教える普遍的な洗練フレームワークUniRefinerを提案する。
EVA-CLIP-8B や InternViT-6B などの大規模モデルを含む多種多様な ViT を改良するためには, 5k 画像の微調整がわずかに必要である。
- 参考スコア(独自算出の注目度): 30.077265994339303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning with Vision Transformers (ViTs) has advanced rapidly, yet the utility of large-scale models in spatially sensitive tasks is hindered by spurious tokens. Prior efforts to mitigate this have been limited, often defining these artifacts narrowly, for example, as simple high-norm outliers. We argue that this scope is insufficient. For dense prediction tasks, we posit that any token failing to encode location-aligned semantics should be treated as a spurious artifact. This broader definition reveals a more complex problem, leading us to systematically categorize and characterize three fundamental types of spurious tokens that corrupt spatial representations. Based on this comprehensive diagnosis, we propose UniRefiner, a universal refinement framework that teaches pre-trained ViTs to self-dispose of these artifacts. UniRefiner uses contrastive registers to explicitly isolate and redistribute spurious tokens via a dual objective: (i) it aligns image tokens with filtered regular tokens to preserve semantics, and (ii) it aligns register tokens with detected spurious tokens to capture the spurious signals. Our method requires only a few epochs of fine-tuning on ~5k images to refine diverse ViTs, including massive models like EVA-CLIP-8B and InternViT-6B. Experiments demonstrate consistent and significant improvements: notably, the refined EVA-CLIP-8B achieves 51.9\% mIoU on ADE20K (+9.4\%), surpassing specialized vision models like DINOv2 (49.1\%), while zero-shot segmentation accuracy improves by up to 22\%. UniRefiner unlocks the latent spatial potential of existing large-scale foundation models, paving the way for their broader application.
- Abstract(参考訳): 視覚変換器(ViT)を用いた表現学習は急速に進歩しているが,空間的に敏感なタスクにおける大規模モデルの活用は,素早いトークンによって妨げられている。
この問題を緩和する以前の取り組みは限定的であり、しばしばこれらのアーティファクトを狭義に定義し、例えば単純な高ノルムの外れ値として定義する。
この範囲は不十分だと主張する。
密集予測タスクでは、位置整合セマンティクスを符号化できないトークンは、スプリアスアーティファクトとして扱うべきであると仮定する。
このより広い定義は、より複雑な問題を明らかにし、空間表現を破損させる3つの基本的なスプリアストークンを体系的に分類し、特徴付ける。
この包括的診断に基づいて、これらのアーティファクトの自己処分を事前学習したViTに教える普遍的な洗練フレームワークUniRefinerを提案する。
UniRefinerはコントラストレジスタを使用して、二重目的によってスプリクストークンを明示的に分離し、再配布する。
(i)画像トークンとフィルタされた正規トークンをアライメントして意味を保存し、
(ii)検出されたスプリアストークンとレジスタトークンをアライメントし、スプリアス信号をキャプチャする。
EVA-CLIP-8B や InternViT-6B のような大規模モデルを含む様々な ViT を改良するためには,5k 画像の微調整がほんの数回必要である。
改良されたEVA-CLIP-8BはADE20K(+9.4\%)で51.9\% mIoUを達成し、DINOv2(49.1\%)のような特殊なビジョンモデルを上回っ、ゼロショットのセグメンテーション精度は最大22\%向上した。
UniRefinerは、既存の大規模ファンデーションモデルの潜在的な空間ポテンシャルを解き放ち、より広範な応用への道を開く。
関連論文リスト
- Learning Fingerprints for Medical Time Series with Redundancy-Constrained Information Maximization [11.233142317726971]
可変長のMedTSを固定サイズの$k$潜在フィンガープリントトークンに圧縮する新しいフレームワークを提案する。
私たちのアーキテクチャでは、これらのトークンを生成するために、クロスアテンションボトルネックを使用し、二重目的関数でトレーニングされています。
このアプローチは低次元、解釈可能、サンプル効率の表現を生み出し、各トークンは変動の独立した要因を捉えることを奨励する。
論文 参考訳(メタデータ) (2026-04-30T18:33:40Z) - UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model [50.68870074090426]
我々はUniWeTokを紹介した。UniWeTokはUniified Multimodal Large Language Modelsのための統一された離散トークンである。
トレーニングフレームワークとして,個別トークンのセマンティックな抽出と生成を促進するために,プレポスト蒸留とジェネレーティブ・アウェア・プレファレンスを導入する。
我々は,UniWeTokの適応性を高めるために,様々な画像解像度と知覚に敏感なシナリオを横断する3段階のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T15:07:19Z) - D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。
FLOPを74.2%削減し、元の性能の99.2%を維持した。
既存の手法に比べて63.53%も改善されている。
論文 参考訳(メタデータ) (2025-12-22T14:42:31Z) - Vision Transformers with Self-Distilled Registers [11.649023403110528]
ポストホックレジスタ (PH-Reg) は、レジスタを既存のViTに統合する効率的な自己蒸留方式であり、ラベル付きデータの追加やフルリトレーニングを必要としない。
提案手法は,ゼロショットおよび線形探索による学生のViTのセグメンテーションと深度予測を改善することにより,アーティファクトトークンの数を効果的に削減できることを示す。
論文 参考訳(メタデータ) (2025-05-27T17:59:41Z) - UniTok: A Unified Tokenizer for Visual Generation and Understanding [63.23796622553615]
視覚生成および理解モデルは通常、画像を処理するために異なるトークン化器に依存する。
我々は、新しいマルチコードブック量子化機構を備えた統一トークン化システムUniTokを紹介する。
最終的なパフォーマンスに関しては、UniTokはImageNetで0.38 rFIDと78.6%のゼロショット精度で新記録を樹立した。
論文 参考訳(メタデータ) (2025-02-27T17:47:01Z) - Leveraging Registers in Vision Transformers for Robust Adaptation [36.30125926550378]
ビジョントランスフォーマー(ViT)は、グローバルな画像表現をキャプチャできるため、様々なタスクで成功している。
近年の研究では、ViTに高ノルムのトークンが存在することが確認されており、教師なしの物体発見に干渉する可能性がある。
これを解決するために、グローバルな画像レベルの情報をキャプチャしながら、高い標準パッチトークンを分離する追加トークンである"登録"が提案されている。
論文 参考訳(メタデータ) (2025-01-08T19:02:32Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。