論文の概要: Improving Image Clustering with Artifacts Attenuation via Inference-Time Attention Engineering
- arxiv url: http://arxiv.org/abs/2410.04801v1
- Date: Mon, 7 Oct 2024 07:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 01:58:00.981867
- Title: Improving Image Clustering with Artifacts Attenuation via Inference-Time Attention Engineering
- Title(参考訳): 推論時間アテンションエンジニアリングによるアーチファクト減衰による画像クラスタリングの改善
- Authors: Kazumoto Nakamura, Yuji Nozawa, Yu-Chieh Lin, Kengo Nakata, Youyang Ng,
- Abstract要約: モデルのサイズが大きくなるにつれて、マルチヘッドアテンションのパッチにハイノームアーティファクトが異常に現れる。
推論中に注意関数を操作するITAE(Inference-Time Attention Engineering)を提案する。
ITAEは、複数のデータセットのクラスタリング精度を改善し、潜在空間でより表現力のある機能を示す。
- 参考スコア(独自算出の注目度): 1.8786950286587742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to improve the performance of pretrained Vision Transformer (ViT) models, particularly DINOv2, in image clustering task without requiring re-training or fine-tuning. As model size increases, high-norm artifacts anomaly appears in the patches of multi-head attention. We observe that this anomaly leads to reduced accuracy in zero-shot image clustering. These artifacts are characterized by disproportionately large values in the attention map compared to other patch tokens. To address these artifacts, we propose an approach called Inference-Time Attention Engineering (ITAE), which manipulates attention function during inference. Specifically, we identify the artifacts by investigating one of the Query-Key-Value (QKV) patches in the multi-head attention and attenuate their corresponding attention values inside the pretrained models. ITAE shows improved clustering accuracy on multiple datasets by exhibiting more expressive features in latent space. Our findings highlight the potential of ITAE as a practical solution for reducing artifacts in pretrained ViT models and improving model performance in clustering tasks without the need for re-training or fine-tuning.
- Abstract(参考訳): 本研究の目的は、画像クラスタリングタスクにおいて、トレーニング済みビジョントランス (ViT) モデル、特にDINOv2の性能を、再トレーニングや微調整を必要とせずに改善することである。
モデルのサイズが大きくなるにつれて、マルチヘッドアテンションのパッチにハイノームアーティファクトが異常に現れる。
この異常はゼロショット画像クラスタリングの精度を低下させる。
これらのアーティファクトは、他のパッチトークンと比較して、アテンションマップにおける不均等に大きな値によって特徴づけられる。
これらの成果物に対処するため,推論中に注意関数を操作するITAE (Inference-Time Attention Engineering) という手法を提案する。
具体的には、クエリキーバリュー(QKV)パッチの1つをマルチヘッドで調査し、事前訓練されたモデル内で対応するアテンション値を減衰させることにより、アーティファクトを識別する。
ITAEは、複数のデータセットのクラスタリング精度を改善し、潜在空間でより表現力のある機能を示す。
この結果から,事前学習したViTモデルのアーティファクトを削減し,クラスタリングタスクにおけるモデル性能を向上させるための実用的なソリューションとして,ITAEの可能性を浮き彫りにした。
関連論文リスト
- Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。
以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。
本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:24:28Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - Attention as Robust Representation for Time Series Forecasting [23.292260325891032]
多くの実用化には時系列予測が不可欠である。
トランスフォーマーの重要な特徴、注意機構、データ表現を強化するために動的に埋め込みを融合させ、しばしば注意重みを副産物の役割に還元する。
提案手法は,時系列の主表現として注目重みを高くし,データポイント間の時間的関係を利用して予測精度を向上させる。
論文 参考訳(メタデータ) (2024-02-08T03:00:50Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Optimizing Relevance Maps of Vision Transformers Improves Robustness [91.61353418331244]
視覚的分類モデルは、しばしば画像背景に依存し、前景を無視し、分布の変化に対する頑丈さを損なうことが観察されている。
本稿では,モデルが前景オブジェクトに注目するように,モデルの関連性信号を監視して操作することを提案する。
これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。
論文 参考訳(メタデータ) (2022-06-02T17:24:48Z) - Mean Embeddings with Test-Time Data Augmentation for Ensembling of
Representations [8.336315962271396]
表現のアンサンブルを考察し、MeTTA(Test-time augmentation)を用いた平均埋め込みを提案する。
MeTTAは、教師付きモデルと自己教師付きモデルの両方において、ImageNetの線形評価の質を大幅に向上させる。
我々は、より高品質な表現を推論するためにアンサンブルの成功を広めることが、多くの新しいアンサンブルアプリケーションを開く重要なステップであると信じている。
論文 参考訳(メタデータ) (2021-06-15T10:49:46Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。