論文の概要: Simplified priors for Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2410.00728v1
- Date: Tue, 1 Oct 2024 14:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:15:24.435218
- Title: Simplified priors for Object-Centric Learning
- Title(参考訳): オブジェクト中心学習の簡易化
- Authors: Vihang Patil, Andreas Radler, Daniel Klotz, Sepp Hochreiter,
- Abstract要約: 我々は,SAMP Simplified Slot Attention with Max Pool Priorsという概念的にシンプルで,完全微分可能で,非定型でスケーラブルな手法を導入する。
提案手法では,入力画像を畳み込みニューラルネットワークで符号化し,コンボリューション層とMaxPool層を交互に分割してサブネットワークを作成し,プリミティブスロットを抽出する。
その単純さにもかかわらず、我々の手法は標準ベンチマークで従来の手法より優れているか、優れている。
- 参考スコア(独自算出の注目度): 6.178423448635084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans excel at abstracting data and constructing \emph{reusable} concepts, a capability lacking in current continual learning systems. The field of object-centric learning addresses this by developing abstract representations, or slots, from data without human supervision. Different methods have been proposed to tackle this task for images, whereas most are overly complex, non-differentiable, or poorly scalable. In this paper, we introduce a conceptually simple, fully-differentiable, non-iterative, and scalable method called SAMP Simplified Slot Attention with Max Pool Priors). It is implementable using only Convolution and MaxPool layers and an Attention layer. Our method encodes the input image with a Convolutional Neural Network and then uses a branch of alternating Convolution and MaxPool layers to create specialized sub-networks and extract primitive slots. These primitive slots are then used as queries for a Simplified Slot Attention over the encoded image. Despite its simplicity, our method is competitive or outperforms previous methods on standard benchmarks.
- Abstract(参考訳): 人間はデータを抽象化し、現在の連続学習システムに欠けている「emph{reusable}」概念を構築するのが得意である。
オブジェクト中心学習の分野は、人間の監督なしにデータから抽象表現(スロット)を開発することでこの問題に対処する。
画像の処理には様々な方法が提案されているが、そのほとんどは複雑であり、微分不可能で、スケーラビリティが悪い。
本稿では,SAMP Simplified Slot Attention with Max Pool Priorsという,概念的にシンプルで,完全微分可能で,非定型かつスケーラブルな手法を提案する。
Convolution層とMaxPool層とアテンション層のみを使用して実装できる。
提案手法では,入力画像を畳み込みニューラルネットワークで符号化し,コンボリューション層とMaxPool層を交互に分割してサブネットワークを作成し,プリミティブスロットを抽出する。
これらのプリミティブスロットは、エンコードされたイメージ上のSimplified Slot Attentionのクエリとして使用される。
その単純さにもかかわらず、我々の手法は標準ベンチマークで従来の手法より優れているか、優れている。
関連論文リスト
- Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - MultIOD: Rehearsal-free Multihead Incremental Object Detector [17.236182938227163]
本研究では,CenterNetに基づくクラスインクリメンタルオブジェクト検出器であるMultIODを提案する。
われわれは,まず学習したクラスと漸進的に学習したクラスの間で伝達学習を採用し,破滅的な忘れに対処した。
その結果,本手法は2つのPascal VOCデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2023-09-11T09:32:45Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained
Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。
本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文 参考訳(メタデータ) (2023-07-07T13:01:29Z) - Abstracting Sketches through Simple Primitives [53.04827416243121]
人間は、オブジェクト情報を素早く通信する必要があるゲームにおいて、高いレベルの抽象化能力を示す。
本稿では,プリミティブをベースとしたスケッチ抽象化タスクを提案する。
我々のPrimitive-Matching Network(PMN)は、スケッチの解釈可能な抽象化を自己管理的に学習する。
論文 参考訳(メタデータ) (2022-07-27T14:32:39Z) - A Contrastive Distillation Approach for Incremental Semantic
Segmentation in Aerial Images [15.75291664088815]
現在のディープニューラルアーキテクチャに関する大きな問題は、破滅的な忘れこととして知られている。
我々は、任意の入力を拡張バージョンと比較する、対照的な正則化を提案する。
私たちは、Potsdamデータセットにおけるソリューションの有効性を示し、各テストにおけるインクリメンタルベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-12-07T16:44:45Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。