論文の概要: Learning Object Focused Attention
- arxiv url: http://arxiv.org/abs/2504.08166v1
- Date: Thu, 10 Apr 2025 23:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:59.077419
- Title: Learning Object Focused Attention
- Title(参考訳): 注意に焦点をあてた学習
- Authors: Vivek Trivedy, Amani Almalki, Longin Jan Latecki,
- Abstract要約: 本稿では,視覚変換器(ViT)のトレーニングに適応し,注意計算中の物体の明示的なモデリングを可能にすることを提案する。
これは、オブジェクト中心の注意(OFA)損失と呼ばれる補助的な損失を計算する、選択された注意層に新しいブランチを追加することで達成される。
実験結果から,OFAを用いたVTTは,基本モデルよりも優れた分類結果を示し,より強力な一般化能力を示し,汎用テクスチャによる素早い相関ではなく,対象形状に基づく表現を学習することがわかった。
- 参考スコア(独自算出の注目度): 5.340670496809963
- License:
- Abstract: We propose an adaptation to the training of Vision Transformers (ViTs) that allows for an explicit modeling of objects during the attention computation. This is achieved by adding a new branch to selected attention layers that computes an auxiliary loss which we call the object-focused attention (OFA) loss. We restrict the attention to image patches that belong to the same object class, which allows ViTs to gain a better understanding of configural (or holistic) object shapes by focusing on intra-object patches instead of other patches such as those in the background. Our proposed inductive bias fits easily into the attention framework of transformers since it only adds an auxiliary loss over selected attention layers. Furthermore, our approach has no additional overhead during inference. We also experiment with multiscale masking to further improve the performance of our OFA model and give a path forward for self-supervised learning with our method. Our experimental results demonstrate that ViTs with OFA achieve better classification results than their base models, exhibit a stronger generalization ability to out-of-distribution (OOD) and adversarially corrupted images, and learn representations based on object shapes rather than spurious correlations via general textures. For our OOD setting, we generate a novel dataset using the COCO dataset and Stable Diffusion inpainting which we plan to share with the community.
- Abstract(参考訳): 本稿では,視覚変換器(ViT)のトレーニングに適応し,注意計算中の物体の明示的なモデリングを可能にすることを提案する。
これは、オブジェクト中心の注意(OFA)損失と呼ばれる補助的な損失を計算する、選択された注意層に新しいブランチを追加することで達成される。
我々は、同じオブジェクトクラスに属するイメージパッチに注意を向けることを制限する。これにより、ViTは、背景にあるような他のパッチではなく、オブジェクト内のパッチに焦点を当てることで、構成(または全体)オブジェクトの形状をよりよく理解することができる。
提案した帰納バイアスは,選択した注目層に対して補助的な損失しか与えないため,変圧器の注意枠組みに容易に適合する。
さらに,本手法は推論時に追加のオーバーヘッドを伴わない。
また,マルチスケールマスキングを用いてOFAモデルの性能をさらに向上し,本手法による自己教師型学習の道筋を示す。
実験の結果,OFA を用いた ViT は,ベースモデルよりも優れた分類結果が得られ,アウト・オブ・ディストリビューション (OOD) や逆向きに劣化した画像に対するより強力な一般化能力を示し,汎用テクスチャによるスプリアス相関ではなく,オブジェクト形状に基づく表現の学習が可能であった。
OOD設定のために、COCOデータセットとStable Diffusionによる新しいデータセットを作成し、コミュニティと共有する予定です。
関連論文リスト
- Improving Image Clustering with Artifacts Attenuation via Inference-Time Attention Engineering [1.8786950286587742]
モデルのサイズが大きくなるにつれて、マルチヘッドアテンションのパッチにハイノームアーティファクトが異常に現れる。
推論中に注意関数を操作するITAE(Inference-Time Attention Engineering)を提案する。
ITAEは、複数のデータセットのクラスタリング精度を改善し、潜在空間でより表現力のある機能を示す。
論文 参考訳(メタデータ) (2024-10-07T07:26:10Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - Explicitly Disentangled Representations in Object-Centric Learning [0.0]
本稿では, オブジェクト中心のモデルを, 密接な形状やテクスチャ成分に偏在させる新しいアーキテクチャを提案する。
特に, オブジェクト中心のモデルを, 密接な形状やテクスチャ成分に偏在させる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-18T17:22:11Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Object-wise Masked Autoencoders for Fast Pre-training [13.757095663704858]
現在のマスク付き画像符号化モデルは、単一のオブジェクト表現ではなく、シーン全体のすべてのオブジェクト間の基盤となる関係を学習することを示す。
興味のある領域マスクを用いて選択的な再構成を行うことで、オブジェクトの表現を学習するための非オブジェクトパッチをドロップする、新しいオブジェクト選択と分割戦略を導入する。
4つの一般的なデータセットの実験は、競争性能を達成しつつ計算コストを72%削減する上で、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2022-05-28T05:13:45Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。