Fugu-MT 論文翻訳(概要): Attention Normalization Impacts Cardinality Generalization in Slot Attention

論文の概要: Attention Normalization Impacts Cardinality Generalization in Slot Attention

arxiv url: http://arxiv.org/abs/2407.04170v1
Date: Thu, 4 Jul 2024 22:09:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 15:00:44.264998
Title: Attention Normalization Impacts Cardinality Generalization in Slot Attention
Title（参考訳）: 注意正規化はスロット注意における心の一般化に影響を及ぼす
Authors: Markus Krimmel, Jan Achterhold, Joerg Stueckler,
Abstract要約: Slot Attentionは、インプットイメージに対して教師なしのオブジェクト中心のシーン分解を実行するモジュールである。注目アーキテクチャにおける集約値の正規化に関する設計決定は、スロット注意の能力にかなりの影響を及ぼすことを示す。本稿では,スロットアテンションの一般化能力を,スロット数やオブジェクト数に拡張する代替正規化手法を提案し,検討する。
参考スコア（独自算出の注目度）: 6.9099729240700825
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Object-centric scene decompositions are important representations for downstream tasks in fields such as computer vision and robotics. The recently proposed Slot Attention module, already leveraged by several derivative works for image segmentation and object tracking in videos, is a deep learning component which performs unsupervised object-centric scene decomposition on input images. It is based on an attention architecture, in which latent slot vectors, which hold compressed information on objects, attend to localized perceptual features from the input image. In this paper, we show that design decisions on normalizing the aggregated values in the attention architecture have considerable impact on the capabilities of Slot Attention to generalize to a higher number of slots and objects as seen during training. We argue that the original Slot Attention normalization scheme discards information on the prior assignment probability of pixels to slots, which impairs its generalization capabilities. Based on these findings, we propose and investigate alternative normalization approaches which increase the generalization capabilities of Slot Attention to varying slot and object counts, resulting in performance gains on the task of unsupervised image segmentation.
Abstract（参考訳）: オブジェクト中心のシーン分解は、コンピュータビジョンやロボット工学のような分野における下流タスクの重要な表現である。最近提案されたSlot Attentionモジュールは、画像のセグメンテーションやオブジェクト追跡のためのいくつかの派生作業に既に利用されており、入力画像に対して教師なしのオブジェクト中心のシーン分解を実行するディープラーニングコンポーネントである。これは、オブジェクトの圧縮情報を保持する潜在スロットベクトルが、入力画像から局所化された知覚特徴に付随するアテンションアーキテクチャに基づいている。本稿では,アテンションアーキテクチャにおける集約値の正規化に関する設計上の決定が,学習中に見られるスロットやオブジェクトの数の増加を一般化するスロットアテンションの能力に多大な影響を与えることを示す。元のスロットアテンション正規化方式は、スロットへの画素の割り当ての事前確率に関する情報を排除し、その一般化能力を損なうと主張している。これらの結果に基づき、スロットアテンションの様々なスロットとオブジェクト数への一般化能力を向上する代替正規化手法を提案し、その結果、教師なし画像セグメンテーションのタスクの性能向上をもたらす。

関連論文リスト

Slot Attention with Re-Initialization and Self-Distillation [22.024377849671033]
本稿では、オブジェクトの発見と認識のための再初期化と自己蒸留(DIAS)によるスロット注意を提案する。 DIASはオブジェクトの発見や認識といったOCLタスクの最先端のタスクを実現し、高度な視覚的予測と推論を改善している。
論文参考訳（メタデータ） (2025-07-31T17:41:18Z)
Adaptive Slot Attention: Object Discovery with Dynamic Slot Number [64.45419820717754]
スロットアテンションを含むほとんどのオブジェクト中心モデルの大きな欠点は、スロットの数を事前に定義することに依存することである。本フレームワークでは,最適スロット数を動的に決定するアダプティブスロットアテンション(AdaSlot)機構を導入する。我々のフレームワークは、さまざまなデータセットでオブジェクト発見タスクを広範囲にテストし、パフォーマンスの整合性を示すか、上位の固定スロットモデルを超えるかを示す。
論文参考訳（メタデータ） (2024-06-13T14:55:11Z)
Prompt-Driven Dynamic Object-Centric Learning for Single Domain Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文参考訳（メタデータ） (2024-02-28T16:16:51Z)
Spatial Structure Constraints for Weakly Supervised Semantic Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文参考訳（メタデータ） (2024-01-20T05:25:25Z)
Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。 LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文参考訳（メタデータ） (2024-01-11T08:40:35Z)
Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文参考訳（メタデータ） (2023-11-29T18:47:17Z)
Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文参考訳（メタデータ） (2023-03-23T05:17:05Z)
Guided Slot Attention for Unsupervised Video Object Segmentation [16.69412563413671]
本研究では,空間構造情報を強化し,より優れた前景分離を実現するためのガイド付きスロットアテンションネットワークを提案する。提案モデルは,2つの一般的なデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-03-15T02:08:20Z)
Invariant Slot Attention: Object Discovery with Slot-Centric Reference Frames [18.84636947819183]
自己組織化された方法でオブジェクトを学習するスロットベースのニューラルネットワークは、エキサイティングな進歩を遂げた。本稿では,スロット中心参照フレームを用いた空間対称性の簡易かつ高効率な実装法を提案する。提案手法は,CLEVR,Tetrominoes,CLEVR,Objects Room,MultiShapeNetなどの合成対象発見ベンチマークを用いて評価する。
論文参考訳（メタデータ） (2023-02-09T23:25:28Z)
Self-Supervised Video Object Segmentation via Cutout Prediction and Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文参考訳（メタデータ） (2022-04-22T17:53:27Z)
Recurrent Attention Models with Object-centric Capsule Representation for Multi-object Recognition [4.143091738981101]
反復的な注目を伴うエンコーダ・デコーダモデルにおけるオブジェクト中心の隠れ表現は、注意と認識の効果的な統合をもたらすことを示す。我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。
論文参考訳（メタデータ） (2021-10-11T01:41:21Z)
Object-Centric Learning with Slot Attention [43.684193749891506]
我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。 Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。 Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
論文参考訳（メタデータ） (2020-06-26T15:31:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。