論文の概要: Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior
- arxiv url: http://arxiv.org/abs/2305.19550v1
- Date: Wed, 31 May 2023 04:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:26:34.022235
- Title: Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior
- Title(参考訳): Spotlight Attention: 空間的局所性を持つロバストなオブジェクト指向学習
- Authors: Ayush Chakravarthy, Trang Nguyen, Anirudh Goyal, Yoshua Bengio,
Michael C. Mozer
- Abstract要約: オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
- 参考スコア(独自算出の注目度): 88.9319150230121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of object-centric vision is to construct an explicit representation
of the objects in a scene. This representation is obtained via a set of
interchangeable modules called \emph{slots} or \emph{object files} that compete
for local patches of an image. The competition has a weak inductive bias to
preserve spatial continuity; consequently, one slot may claim patches scattered
diffusely throughout the image. In contrast, the inductive bias of human vision
is strong, to the degree that attention has classically been described with a
spotlight metaphor. We incorporate a spatial-locality prior into
state-of-the-art object-centric vision models and obtain significant
improvements in segmenting objects in both synthetic and real-world datasets.
Similar to human visual attention, the combination of image content and spatial
constraints yield robust unsupervised object-centric learning, including less
sensitivity to model hyperparameters.
- Abstract(参考訳): オブジェクト中心のビジョンの目的は、シーン内のオブジェクトの明示的な表現を構築することである。
この表現は、画像の局所パッチを競う \emph{slots} または \emph{object files} と呼ばれる交換可能なモジュール群を介して得られる。
競合は空間的連続性を維持するために誘導バイアスが弱いため、あるスロットは画像全体に散らばったパッチを主張することができる。
対照的に、人間の視覚の誘導バイアスは、注目が古典的にスポットライトの比喩で記述されている程度に強い。
先行する空間的局所性を最先端のオブジェクト中心のビジョンモデルに取り入れ、合成データと実世界のデータセットの両方でオブジェクトのセグメンテーションを大幅に改善した。
人間の視覚的注意と同様に、画像の内容と空間的制約の組み合わせは、モデルハイパーパラメータに対する感度の低下を含む、堅牢な教師なしのオブジェクト中心学習をもたらす。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Seeing Objects in a Cluttered World: Computational Objectness from
Motion in Video [0.0]
物体が重なり合う物体と物理的に異なるものとして、世界の視覚的に不連続な表面を認識することは、視覚的知覚の基礎となる。
対象モデルを持たない現象学から客観性を推定するための,単純だが新しい手法を提案する。
ぼやけやカメラの震えがあっても、個々の被写体をぼやけたシーンでしっかりと認識できることを示す。
論文 参考訳(メタデータ) (2024-02-02T03:57:11Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Compositional Scene Modeling with Global Object-Centric Representations [44.43366905943199]
人間は、メモリ内の標準画像に基づいて閉塞された部分を完了させることで、たとえ閉塞物が存在するとしても、同じ物体を容易に識別することができる。
本稿では,オブジェクトの標準画像のグローバルな表現を,監督なしに推測する合成シーンモデリング手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T14:36:36Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - Towards Self-Supervised Learning of Global and Object-Centric
Representations [4.36572039512405]
自己スーパービジョンを用いた構造化対象中心表現の学習における重要な側面について論じる。
CLEVRデータセットに関するいくつかの実験を通じて、私たちの洞察を検証します。
論文 参考訳(メタデータ) (2022-03-11T15:18:47Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。