論文の概要: Attention Normalization Impacts Cardinality Generalization in Slot Attention
- arxiv url: http://arxiv.org/abs/2407.04170v2
- Date: Sun, 10 Nov 2024 11:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 17:14:27.610731
- Title: Attention Normalization Impacts Cardinality Generalization in Slot Attention
- Title(参考訳): 注意正規化はスロット注意における心の一般化に影響を及ぼす
- Authors: Markus Krimmel, Jan Achterhold, Joerg Stueckler,
- Abstract要約: そこで本研究では,スロット数やオブジェクト数に応じてスロットアテンションの機能を向上する,元の正規化方式の代替案を提案し,検討する。
新たに提案された正規化は、通常のSlot Attentionモジュールの変更を簡単に実装できる最小限のものである。
- 参考スコア(独自算出の注目度): 6.9099729240700825
- License:
- Abstract: Object-centric scene decompositions are important representations for downstream tasks in fields such as computer vision and robotics. The recently proposed Slot Attention module, already leveraged by several derivative works for image segmentation and object tracking in videos, is a deep learning component which performs unsupervised object-centric scene decomposition on input images. It is based on an attention architecture, in which latent slot vectors, which hold compressed information on objects, attend to localized perceptual features from the input image. In this paper, we demonstrate that design decisions on normalizing the aggregated values in the attention architecture have considerable impact on the capabilities of Slot Attention to generalize to a higher number of slots and objects as seen during training. We propose and investigate alternatives to the original normalization scheme which increase the generalization capabilities of Slot Attention to varying slot and object counts, resulting in performance gains on the task of unsupervised image segmentation. The newly proposed normalizations represent minimal and easy to implement modifications of the usual Slot Attention module, changing the value aggregation mechanism from a weighted mean operation to a scaled weighted sum operation.
- Abstract(参考訳): オブジェクト中心のシーン分解は、コンピュータビジョンやロボット工学のような分野における下流タスクの重要な表現である。
最近提案されたSlot Attentionモジュールは、画像のセグメンテーションやオブジェクト追跡のためのいくつかの派生作業に既に利用されており、入力画像に対して教師なしのオブジェクト中心のシーン分解を実行するディープラーニングコンポーネントである。
これは、オブジェクトの圧縮情報を保持する潜在スロットベクトルが、入力画像から局所化された知覚特徴に付随するアテンションアーキテクチャに基づいている。
本稿では,アテンションアーキテクチャにおける集約値の正規化に関する設計上の決定が,学習中に見られるスロットやオブジェクトの数の増加を一般化するスロットアテンションの能力に多大な影響を与えることを実証する。
本稿では,スロットアテンションの一般化能力の向上を図った正規化手法の代替として,スロット数やオブジェクト数の変化を考慮し,教師なし画像セグメンテーションのタスクの性能向上を図った。
新たに提案された正規化は、通常のスロット注意モジュールの修正を最小限かつ容易に実施でき、値集約機構を重み付き平均演算からスケールド重み付き和演算に変更する。
関連論文リスト
- Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.45419820717754]
スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文 参考訳(メタデータ) (2024-06-13T14:55:11Z) - Spatial Structure Constraints for Weakly Supervised Semantic
Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。
注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文 参考訳(メタデータ) (2024-01-20T05:25:25Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - SACANet: scene-aware class attention network for semantic segmentation
of remote sensing images [4.124381172041927]
リモートセンシング画像のセマンティックセグメンテーションのためのシーン認識クラスアテンションネットワーク(SACANet)を提案する。
3つのデータセットの実験結果は、SACANetが他の最先端の手法より優れ、その有効性を検証することを示している。
論文 参考訳(メタデータ) (2023-04-22T14:54:31Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Guided Slot Attention for Unsupervised Video Object Segmentation [16.69412563413671]
本研究では,空間構造情報を強化し,より優れた前景分離を実現するためのガイド付きスロットアテンションネットワークを提案する。
提案モデルは,2つの一般的なデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-15T02:08:20Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Recurrent Attention Models with Object-centric Capsule Representation
for Multi-object Recognition [4.143091738981101]
反復的な注目を伴うエンコーダ・デコーダモデルにおけるオブジェクト中心の隠れ表現は、注意と認識の効果的な統合をもたらすことを示す。
我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。
論文 参考訳(メタデータ) (2021-10-11T01:41:21Z) - Instance-aware Remote Sensing Image Captioning with Cross-hierarchy
Attention [11.23821696220285]
空間的注意は、リモートセンシング画像キャプションのパフォーマンスを高めるための簡単なアプローチです。
インスタンス認識と階層横断に注目したリモートセンシング画像キャプションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-05-11T12:59:07Z) - Object-Centric Learning with Slot Attention [43.684193749891506]
我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。
Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。
Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
論文 参考訳(メタデータ) (2020-06-26T15:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。