論文の概要: Attention Normalization Impacts Cardinality Generalization in Slot Attention
- arxiv url: http://arxiv.org/abs/2407.04170v1
- Date: Thu, 4 Jul 2024 22:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 15:00:44.264998
- Title: Attention Normalization Impacts Cardinality Generalization in Slot Attention
- Title(参考訳): 注意正規化はスロット注意における心の一般化に影響を及ぼす
- Authors: Markus Krimmel, Jan Achterhold, Joerg Stueckler,
- Abstract要約: Slot Attentionは、インプットイメージに対して教師なしのオブジェクト中心のシーン分解を実行するモジュールである。
注目アーキテクチャにおける集約値の正規化に関する設計決定は、スロット注意の能力にかなりの影響を及ぼすことを示す。
本稿では,スロットアテンションの一般化能力を,スロット数やオブジェクト数に拡張する代替正規化手法を提案し,検討する。
- 参考スコア(独自算出の注目度): 6.9099729240700825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-centric scene decompositions are important representations for downstream tasks in fields such as computer vision and robotics. The recently proposed Slot Attention module, already leveraged by several derivative works for image segmentation and object tracking in videos, is a deep learning component which performs unsupervised object-centric scene decomposition on input images. It is based on an attention architecture, in which latent slot vectors, which hold compressed information on objects, attend to localized perceptual features from the input image. In this paper, we show that design decisions on normalizing the aggregated values in the attention architecture have considerable impact on the capabilities of Slot Attention to generalize to a higher number of slots and objects as seen during training. We argue that the original Slot Attention normalization scheme discards information on the prior assignment probability of pixels to slots, which impairs its generalization capabilities. Based on these findings, we propose and investigate alternative normalization approaches which increase the generalization capabilities of Slot Attention to varying slot and object counts, resulting in performance gains on the task of unsupervised image segmentation.
- Abstract(参考訳): オブジェクト中心のシーン分解は、コンピュータビジョンやロボット工学のような分野における下流タスクの重要な表現である。
最近提案されたSlot Attentionモジュールは、画像のセグメンテーションやオブジェクト追跡のためのいくつかの派生作業に既に利用されており、入力画像に対して教師なしのオブジェクト中心のシーン分解を実行するディープラーニングコンポーネントである。
これは、オブジェクトの圧縮情報を保持する潜在スロットベクトルが、入力画像から局所化された知覚特徴に付随するアテンションアーキテクチャに基づいている。
本稿では,アテンションアーキテクチャにおける集約値の正規化に関する設計上の決定が,学習中に見られるスロットやオブジェクトの数の増加を一般化するスロットアテンションの能力に多大な影響を与えることを示す。
元のスロットアテンション正規化方式は、スロットへの画素の割り当ての事前確率に関する情報を排除し、その一般化能力を損なうと主張している。
これらの結果に基づき、スロットアテンションの様々なスロットとオブジェクト数への一般化能力を向上する代替正規化手法を提案し、その結果、教師なし画像セグメンテーションのタスクの性能向上をもたらす。
関連論文リスト
- Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.45419820717754]
スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。
本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。
我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文 参考訳(メタデータ) (2024-06-13T14:55:11Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - Spatial Structure Constraints for Weakly Supervised Semantic
Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。
注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文 参考訳(メタデータ) (2024-01-20T05:25:25Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Guided Slot Attention for Unsupervised Video Object Segmentation [16.69412563413671]
本研究では,空間構造情報を強化し,より優れた前景分離を実現するためのガイド付きスロットアテンションネットワークを提案する。
提案モデルは,2つの一般的なデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-15T02:08:20Z) - Invariant Slot Attention: Object Discovery with Slot-Centric Reference
Frames [18.84636947819183]
自己組織化された方法でオブジェクトを学習するスロットベースのニューラルネットワークは、エキサイティングな進歩を遂げた。
本稿では,スロット中心参照フレームを用いた空間対称性の簡易かつ高効率な実装法を提案する。
提案手法は,CLEVR,Tetrominoes,CLEVR,Objects Room,MultiShapeNetなどの合成対象発見ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2023-02-09T23:25:28Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Recurrent Attention Models with Object-centric Capsule Representation
for Multi-object Recognition [4.143091738981101]
反復的な注目を伴うエンコーダ・デコーダモデルにおけるオブジェクト中心の隠れ表現は、注意と認識の効果的な統合をもたらすことを示す。
我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。
論文 参考訳(メタデータ) (2021-10-11T01:41:21Z) - Object-Centric Learning with Slot Attention [43.684193749891506]
我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。
Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。
Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
論文 参考訳(メタデータ) (2020-06-26T15:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。